Telechargé par t

D4-poly-LCA Paris descartes

publicité
1
Enseignement de Lecture critique d’article
Enseignement de
Lecture critique d’article (UE 16)
Polycopié de cours
2016/2017
Auteurs : Dr Agnès Dechartres, Dr Antoine Rachas, Dr Alexandra Rouquette, Dr Sophie
Grabar, Dr Isabelle Colombet, Dr Pierre Durieux
Enseignants : Pr Gilles Chatellier, Pr Joël Coste, Dr Isabelle Colombet, Dr Agnès
Dechartres, Dr Pierre Durieux, Dr Sophie Grabar, Dr Jean-Philippe Jais, Dr Anne-Sophie
Jannot, Dr Sandrine Katsahian, Dr Jean-Baptiste Escudié, Dr Vincent Looten, Dr Amélie
Yavchitz, Dr Moussa Laanani
Responsables : Dr Agnès Dechartres, Dr Pierre Durieux
Faculté de médecine Paris Descartes
Enseignement de la lecture critique d’article
Table des matières
1ère partie ................................................................................................................... 9
1.1 Structure d’un article ................................................................................................10
1.1.1 Article, rapport d’étude et protocole .................................................................10
1.1.2 Format d’un article .............................................................................................10
1.1.3 Transparence (reporting) ...................................................................................15
1.2 Formulation de l’objectif et choix du type d’étude .................................................16
1.2.1 Formulation de l’objectif ....................................................................................16
1.2.2 Mots-clés correspondant au type d’étude ........................................................17
1.2.3 Adéquation entre le type d’étude et la question posée ...................................18
1.3 Constitution d’un échantillon dans lequel l’étude sera réalisée............................19
1.3.1 Echantillon, population source et population cible .........................................19
1.3.2 Notion de fluctuations d’échantillonnage .........................................................21
1.3.3 Constitution de l’échantillon..............................................................................21
1.4 Rappels de biostatistiques .......................................................................................22
1.4.1 Les différents types de variable ........................................................................23
1.4.2 Les différentes étapes de l’analyse statistique ................................................25
1.4.2.1. Analyse descriptive .......................................................................................25
1.4.2.2 Etude de l’association entre 2 variables (analyse univariée) ..........................34
1.4.2.3 Analyse multivariée ........................................................................................45
1.5 Biais et validité interne .............................................................................................54
1.5.1 Notion de biais ....................................................................................................54
1.5.2 Les principaux biais ...........................................................................................55
1.5.2.1 Biais de sélection ...........................................................................................55
1.5.2.2 Biais de classement .......................................................................................57
1.5.2.3 Biais de confusion ..........................................................................................59
1.5.3 Quels sont les réflexes à avoir ? .......................................................................60
1.5.4 Définition de la validité interne ..........................................................................61
1.6 Validité externe ........................................................................................................61
1.7 Niveau de preuve d’une étude .................................................................................62
Faculté de médecine Paris Descartes
Page 2
Enseignement de la lecture critique d’article
2ème partie : Spécificités des différents types d’articles...................................... 64
2.1 Evaluation d’un test diagnostique ...........................................................................65
2.1.1 Formulation de l’objectif ....................................................................................66
2.1.2 Type d’étude .......................................................................................................66
2.1.3 Population d’étude .............................................................................................66
2.1.4 Choix du test de référence .................................................................................66
2.1.5 Réalisation des tests (test à évaluer et test de référence) ...............................67
2.1.6 Evaluation de la performance diagnostique d’un test .....................................67
2.1.6.1 Mesure de la validité d’un test diagnostique ...................................................67
2.1.6.2 Mesure de la fiabilité d’un test diagnostique ...................................................74
2.1.7 Rappels des différents biais pouvant affecter une étude d’évaluation
diagnostique ................................................................................................................77
2.1.8 Recommandations pour rapporter un article diagnostique ............................77
2.2 Evaluation étiologique ..............................................................................................80
2.2.1 Formulation de l’objectif ....................................................................................81
2.2.2 Type d’étude .......................................................................................................81
2.2.2.1 Choix entre étude cas-témoin et étude de cohorte ........................................81
2.2.2.2 Principe des études de cohorte et cas-témoin ................................................82
2.2.3 Particularités des études de cohorte ................................................................84
2.2.3.1 Choix de la population....................................................................................84
2.2.3.2 Recueil des facteurs de risque .......................................................................84
2.2.3.3 Recueil de la maladie (critère de jugement) ...................................................85
2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte
prospective ................................................................................................................85
2.2.4 Particularités des études cas-témoin................................................................86
2.2.4.1 Population d’étude .........................................................................................86
2.2.4.2 Recueil des facteurs de risque .......................................................................87
2.2.5 Prise en compte des facteurs de confusion potentiels ...................................88
2.2.6 Interprétation des résultats ...............................................................................89
2.2.7 Causalité .............................................................................................................90
Faculté de médecine Paris Descartes
Page 3
Enseignement de la lecture critique d’article
2.2.8 Rappels des biais dans les études étiologiques ..............................................91
2.2.9 Recommandations pour rapporter une étude étiologique...............................93
2.3 Evaluation de facteurs pronostiques ......................................................................96
2.3.1 Formulation de l’objectif ....................................................................................97
2.3.2 Distinction facteur de risque/ facteur pronostique ..........................................97
2.3.3 Type d’étude utilisé ............................................................................................98
2.3.4 Les biais dans les études pronostiques ...........................................................99
2.4 Evaluation d’une intervention thérapeutique ........................................................100
2.4.1 Formulation de l’objectif ..................................................................................101
2.4.2 Type d’étude .....................................................................................................101
2.4.3 Choix du comparateur......................................................................................102
2.4.4 Randomisation..................................................................................................103
2.4.4.1 Génération de la séquence de randomisation ..............................................104
2.4.4.2 Clause d’ignorance ......................................................................................106
2.4.4.3 Vérification de la comparabilité initiale des groupes .....................................108
2.4.5 Le maintien de la comparabilité des groupes pendant l’essai ......................110
2.4.5.1 Le double aveugle ........................................................................................110
2.4.5.2 L’analyse en intention de traiter ...................................................................112
2.4.6 Les critères de jugement .................................................................................117
2.4.6.1 Définition d’un critère de jugement principal .................................................117
2.4.6.2 Pertinence clinique du critère de jugement ...................................................117
2.4.6.3 Notion de subjectivité/objectivité ..................................................................119
2.4.6.4 Disponibilité chez tous les patients (faisabilité du recueil du critère de
jugement).................................................................................................................120
2.4.6.5 Critères composites .....................................................................................121
2.4.7 Calcul d’effectif .................................................................................................122
2.4.8 Respect des règles éthiques et enregistrement des essais ..........................123
2.4.8.1 Règles éthiques ...........................................................................................123
2.4.8.2 Enregistrement des essais ...........................................................................123
2.4.9 Interprétation des résultats d’un essai ...........................................................125
Faculté de médecine Paris Descartes
Page 4
Enseignement de la lecture critique d’article
2.4.9.1 Interprétation des résultats pour le critère de jugement principal ..................125
2.4.9.2 Interprétation des résultats pour les critères secondaires .............................126
2.4.9.3 Interprétation d’une analyse intermédiaire....................................................127
2.4.9.4 Interprétation des analyses en sous-groupe .................................................128
2.4.9.5 Interprétation des résultats de tolérance ......................................................130
2.4.10 Plans expérimentaux particuliers ..................................................................130
2.4.10.1 Les essais en cross-over............................................................................130
2.4.10.2 Les essais d’équivalence ou de non-infériorité ...........................................132
2.4.11 Rappel des biais dans un essai contrôlé randomisé ...................................134
2.4.12 Recommandations de reporting pour les essais contrôlés randomisés ....135
2.5 Evaluation d’une intervention de prévention ou de dépistage ............................139
2.5.1 Prévention .........................................................................................................139
2.5.2 Dépistage ..........................................................................................................140
2.5.2.1 Définitions ....................................................................................................140
2.5.2.2 Avantages et inconvénients d’une procédure de dépistage ..........................141
2.5.2.3 Maladies candidates au dépistage ...............................................................141
2.5.2.4 Test disponible pour le dépistage .................................................................142
2.5.3 Formulation de l’objectif ..................................................................................143
2.5.4 Type d’étude .....................................................................................................143
2.5.5 Points à évaluer ................................................................................................144
2.5.6 Biais spécifiques aux études d’évaluation d’une procédure de dépistage ..145
2.5.7 Critères justifiant la mise en place d’un dépistage organisé ........................146
Glossaire ............................................................................................................... 148
Faculté de médecine Paris Descartes
Page 5
Enseignement de la lecture critique d’article
Remerciements
Nous tenons à remercier tout particulièrement Adlane Feddal et Marion Giry pour leur
relecture attentive et leurs commentaires qui ont permis d’améliorer ce polycopié.
Faculté de médecine Paris Descartes
Page 6
Enseignement de la lecture critique d’article
Introduction : pourquoi la lecture critique ?
Contrairement aux siècles précédents, le médecin d’aujourd’hui ne peut plus s’appuyer
uniquement sur son expérience personnelle ou sur celle de ses collègues, mais doit se tenir
informé des grandes évolutions des connaissances scientifiques produites au niveau
mondial et nécessaires à sa pratique médicale.
En effet, connaître la Médecine, c’est connaître non seulement ses « bases intangibles »,
mais également ses évolutions, ses nouvelles technologies et ses remises en question. Si
les ouvrages médicaux et autres sources classiques d’enseignement restent d’une utilité
incontestable pour l’apprentissage des bases de la médecine, les délais importants entre
l’écriture de ces ouvrages et leur publication rendent leur contenu assez rapidement
obsolète, voire faux, en regard des évolutions constantes des connaissances. Afin d’éviter
ces délais et les potentielles erreurs dues à de multiples intermédiaires, il faut maintenant
être capable de trouver, comprendre et analyser l’information scientifique à la source, à
savoir dans la littérature médicale.
Cependant, la quantité croissante d’articles publiés et leur qualité inégale imposent au
médecin d’avoir la capacité de savoir quels articles lire, comment les lire et comment prendre
en compte les résultats pertinents dans sa pratique quotidienne. Il s’agit donc de ne plus
s’informer de façon passive mais active, par la remise en cause permanente de ses
connaissances. C’est le principe de la médecine fondée sur des preuves (Evidence Based
Medicine) tel qu’il a été proposé dès 1992 par des auteurs essentiellement canadiens issus
de l’Université McMaster d’Hamilton.
Nous parlons ici d’articles dits originaux, c’est-à-dire apportant des données nouvelles issues
d’un travail de recherche. Les revues médicales d’où sont tirés ces articles sont des revues
qui sélectionnent de façon très stricte les articles qu’elles publient mais ce processus est
extrêmement hétérogène d’une revue à l’autre. Il est toujours essentiel d’évaluer la qualité
méthodologique d’un article, même si celui-ci est publié par une revue réputée. Par exemple,
il peut être tentant de publier rapidement des résultats d’études concernant des sujets à la
mode ou dont les résultats sont très attendus. Des responsables de grandes revues
médicales vont ainsi quasiment démarcher les auteurs de certains travaux de recherche qui
présentent leurs résultats dans les grands congrès médicaux internationaux. Chacun voudra
être celui qui publie tel grand essai multicentrique sur un nouveau stent coronaire ou sur un
Faculté de médecine Paris Descartes
Page 7
Enseignement de la lecture critique d’article
nouveau médicament anti cancéreux. Dans ces conditions, l’existence d’éventuelles limites
méthodologiques peuvent passer au second plan.
Ensuite, même lorsqu’une publication est de qualité, il faut comprendre les limites
méthodologiques de l’étude. En effet, la compréhension des limites de l’interprétation des
résultats, même d’une étude bien menée, est cruciale. Par exemple, les résultats issus d’une
étude d’observation n’ont pas le même niveau de preuve que ceux issus d’un essai contrôlé
randomisé. L’efficacité d’une chimiothérapie n’aura pas le même sens si on considère son
effet sur la réduction de la taille de la tumeur ou sur la mortalité.
Enfin, l’appréciation de la possibilité d’utiliser les résultats pour sa propre pratique est un
point essentiel. Il faut tenir compte en particulier du contexte organisationnel dans lequel
l’étude a été réalisée (est-il comparable au vôtre ?), de la population étudiée (est-elle
comparable à celle des patients que vous prenez en charge ?) ou des interventions mises en
œuvre (sont-elles facilement disponibles dans votre environnement ?).
Il faut donc apprendre à lire un article médical scientifique de façon critique. Les chapitres
qui suivent ont pour objectif l’acquisition des bases indispensables à la lecture critique
d’articles scientifiques médicaux.
La difficulté particulière de la lecture critique d’article réside dans la nécessité de développer
une gymnastique d’esprit, afin d’apprendre à jongler avec les connaissances théoriques tout
en restant pragmatique. Il est donc nécessaire d’assimiler ces connaissances petit à petit,
donc de commencer tôt ! Il est bien sûr également indispensable d’assister aux
enseignements dirigés en complément de ce cours.
Nous vous souhaitons une bonne lecture et nous espérons que ce polycopié vous
accompagnera tout au long de votre formation !
Les enseignants de LCA
Faculté de médecine Paris Descartes
Page 8
Enseignement de la lecture critique d’article
1ère partie
1.1 Structure d’un article
1.2 Formulation de l’objectif et choix du type d’étude
1.3 Constitution d’un échantillon
1.4 Rappels de biostatistique
1.5 Biais et validité interne
1.6 Validité externe
1.7 Niveau de preuve d’une étude
Faculté de médecine Paris Descartes
Page 9
Enseignement de la lecture critique d’article
1.1 Structure d’un article
1.1.1 Article, rapport d’étude et protocole
Le plus souvent, un article scientifique a pour objectif de rapporter le déroulement et les
résultats d’une étude dans le but de diffuser ces résultats auprès de la communauté
scientifique. Il s’agit d’un rapport d’étude. L’article est fréquemment le seul document
accessible à la communauté scientifique.
Quand on réalise une étude, il est nécessaire de rédiger avant le début de celle-ci un
protocole. Ce document doit comporter une synthèse de la littérature scientifique permettant
de poser le problème, une formulation claire et complète de l’objectif, la description détaillée
des méthodes qui vont être employées (sélection de l’échantillon, mesure des critères de
jugement, plan d’analyses statistiques pour répondre aux objectifs principal et secondaires,
etc.) et l’ensemble des dispositions réglementaires concernant les questions d’ordre éthique
et d’archivage des données issues de l’étude. Ce protocole est un véritable carnet de route
pour le chercheur. Il permet d’assurer la rigueur méthodologique tout au long de l’étude
jusqu’à la publication des résultats et d’éviter les modifications de convenance en cours
d’étude qui peuvent être source de résultats biaisés.
De plus en plus fréquemment, ce protocole est publié sous la forme d’un article et il est aussi
obligatoire de l’enregistrer avant le début de l‘étude dans le registre international
« ClinicalTrials.gov » ou dans un autre registre reconnu par l’OMS librement consultable sur
internet. C’est une source d’information très importante pour la lecture critique d’article car
elle permet d’évaluer l’écart entre ce qui est publié dans l’article scientifique et ce qui était
prévu initialement dans le protocole.
1.1.2 Format d’un article
Le format de l’article peut légèrement varier d’un journal à l’autre mais suit généralement le
plan suivant :
•
Titre
Le titre de l’article est un élément important. Il doit être court mais informatif. On doit
idéalement y retrouver les différents éléments de l’objectif principal de l’étude.
Faculté de médecine Paris Descartes
Page 10
Enseignement de la lecture critique d’article
•
Auteurs
Tous les auteurs ayant contribué de manière significative à l’étude sont ensuite listés. Le
premier auteur correspond généralement à celui qui rédige l’article et le dernier auteur est la
personne qui supervise cette recherche. Les affiliations des auteurs sont également
indiquées. Il s’agit de leur appartenance à des services cliniques et/ou à des laboratoires de
recherche.
Un « corresponding author » doit être identifié avec ses coordonnées pour le contacter en
cas de questions sur l’article.
Les auteurs doivent indiquer s’ils ont des liens d’intérêt notamment financiers (par exemple si
les auteurs ont été rémunérés par le laboratoire pharmaceutique pour des activités de
conseil ou s’ils détiennent des actions du laboratoire ou si le laboratoire a financé des
voyages pour aller en congrès) en rapport avec l’étude car ces liens peuvent influencer les
résultats et les conclusions de l’étude.
•
Résumé (abstract)
Le résumé est un élément essentiel de l’article. Il synthétise les éléments les plus importants
de l’étude en 200 à 300 mots selon un plan précis (en général Introduction, Méthodes,
Résultats et Conclusions mais la terminologie précise peut différer d’un journal à l’autre). Il
s’agit de l’élément le plus lu car il permet une présélection des articles à lire en intégralité sur
un sujet précis.
Le résumé doit impérativement comporter les points suivants : objectif principal, plan
expérimental, description de la population et des interventions ou des facteurs d’exposition
étudiés, critère de jugement principal, résultats pour le critère de jugement principal,
conclusions en rapport avec les résultats du critère de jugement principal. Tous ces
éléments doivent être cohérents avec le reste du manuscrit.
•
Structure du texte
Le texte de l’article suit le plan Introduction/Méthodes/Résultats/Discussion.
Le tableau ci-dessous décrit les éléments qui doivent être rapportés dans ces différentes
parties et ce que vous devez en retirer. Nous allons détailler dans la suite de ce polycopié
ces différents éléments.
Faculté de médecine Paris Descartes
Page 11
Enseignement de la lecture critique d’article
Tableau 1 : Structure et contenu du texte d’un article
Partie
Eléments
devant être
rapportés
Contenu
Ce que vous devez en
retirer, les réflexes à avoir
Contexte de l’étude
Evaluation de la pertinence
clinique : l’idée à l’origine de
l’étude est-elle originale ?
Ou y a t-il des résultats
discordants dans la
littérature justifiant la
réalisation d’une nouvelle
étude
Revue de la littérature des études sur
le sujet
Hypothèses
Introduction
Justification de l’étude
Objectif
Objectif principal de l’étude
L’objectif est-il formulé de
manière complète ?
Comprend-il tous les
éléments du PECO
(P=population, E=élement
évalué, C=comparateur,
O=outcome)
Type d’étude
(Study design)
Plan expérimental de l’étude
Les mots clés
correspondant au type
d’étude
Justification du type d’étude par
rapport à l’objectif principal
Le type d’étude est-il adapté
à la question posée ?
Mode de recrutement de la population
Evaluation de la validité
externe (les caractéristiques
de la population
correspondent-elles à celles
de la population en pratique
courante ?)
Population
Critères d’éligibilité
Matériel et
méthodes
Evaluation de la validité
interne (risque de biais de
sélection ?)
Randomisation
(dans les
essais)
Faculté de médecine Paris Descartes
Comment la randomisation a été faite
(méthode pour générer la séquence)
et mise en œuvre (respect de
l’assignation secrète ou clause
d’ignorance) ?
Qualité de la randomisation
Evaluation de la validité
interne (risque de biais de
sélection ?)
Page 12
Enseignement de la lecture critique d’article
Facteurs
évalués :
Interventions
Facteur
d’exposition
Critère de
jugement
principal
Description des interventions à l’étude
(traitement évalué, durée, dose),
utilisation d’un placebo ou d’un double
placebo (l’étude est-elle en
aveugle ?)?
Evaluation de la validité
externe (pourra-t-on utiliser
l’intervention évaluée en
pratique courante ?)
Evaluation de la validité
interne (risque de biais de
performance)
Définition des facteurs d’exposition
Evaluation de la validité
interne (risque de biais de
classement)
Description du critère de jugement
principal
Est-il pertinent
cliniquement ?
Mesure du critère de jugement
principal (comment, par qui, en
aveugle ou non) ?
Est-il objectif ou subjectif ?
Si subjectif :
Reproductibilité?
Aveugle ? Evaluation de la
validité interne (biais de
classement)
Analyse
statistique
Calcul d’effectif
Analyse descriptive
Analyse univariée
Les analyses statistiques
sont-elles appropriées ?
L’analyse est-elle en
intention de traiter ?
Analyse multivariée (études
étiologiques et pronostiques)
Population d’analyse dans les essais
(intention de traiter, per protocol)
Valeur du risque alpha (en général
5%), tests unilatéraux ou bilatéraux ?
Résultats
Description de
la population
Evaluation de la validité
externe (les caractéristiques
de la population
correspondent-elles à celles
de la population en pratique
courante ?)
Validité interne (vérification
Faculté de médecine Paris Descartes
Page 13
Enseignement de la lecture critique d’article
de la comparabilité des
groupes dans les essais :
qualité de la randomisation)
Pour les essais
Pour les études
observationnelles
Discussion
Résultats pour
le critère de
jugement
principal
Comparaison du critère de jugement
principal entre les 2 groupes de
traitement
Différence statistiquement
significative ?
Evaluation de la
tolérance
Les évènements indésirables doivent
être rapportés avec leur description et
leur nombre, par groupe en précisant
le nombre et la nature des
évènements indésirables graves
Y a-t-il des problèmes de
tolérance (comparer les
pourcentages entre les 2
groupes car les tests
statistiques ne sont pas
puissants pour mettre en
évidence des différences
concernant les évènements
indésirables)
Analyse
univariée
Comparaison des caractéristiques des
patients selon le critère de jugement
principal
Analyse
multivariée
Identification des facteurs
indépendamment associés à la
survenue du critère de jugement
principal
Les résultats de l’analyse
multivariée sont les résultats
principaux car ils prennent
en compte les facteurs de
confusion. L’analyse
univariée est une étape
prélable à la réalisation de
l’analyse multivariée
Taille d’effet (différence
cliniquement pertinente ?)
Résumé des
principaux
résultats
En accord avec les résultats
pour le critère de jugement
principal ?
Place de l’étude
dans la
littérature
Les résultats de l’étude sont-ils
concordants avec les autres études
réalisées ?
Evaluation de la cohérence
externe
Limites
Les auteurs doivent présenter les
principales limites de leur étude
Evaluation de la validité
interne et externe
Conclusion
Les auteurs concluent en précisant les
implications pour la pratique
La conclusion est-elle en
accord avec les résultats du
critère de jugement principal
Faculté de médecine Paris Descartes
Page 14
Enseignement de la lecture critique d’article
1.1.3 Transparence (reporting)
Il est essentiel que tous les éléments présentés dans le tableau soient clairement rapportés
afin que le lecteur puisse évaluer la qualité méthodologique de l’étude et la validité des
résultats ce qui n’est malheureusement pas toujours le cas. En fait, de nombreux travaux
méthodologiques ont souligné le manque de transparence de certains articles.
Afin d’améliorer la transparence dans les articles scientifiques, des recommandations
internationales ont été élaborées par un groupe constitué de méthodologistes, d'éditeurs de
journaux et d'investigateurs. Ces recommandations listent tous les items devant être
rapportés dans la publication d'une étude afin de permettre l'évaluation de la validité et de la
pertinence des résultats. Pour les essais contrôlés randomisés, ces recommandations
s’appellent le CONSORT Statement. Ces recommandations préconisent également de
présenter un diagramme de flux (flow chart) des patients présentant le nombre de patients
éligibles et randomisés dans chaque bras de l'essai avec les raisons de non-inclusion ainsi
que le nombre de patients analysés avec les raisons d'exclusion. Il existe des
recommandations de « reporting » adaptées à chaque type d’étude.
Tableau 2 : Recommandations de « reporting » selon le type d’étude
Type d’étude
Recommandations pour rapporter les
articles
Essai contrôlé randomisé
CONSORT Statement
Etude diagnostique
STARD Statement
Etude de cohorte ou cas témoin
STROBE Statement
Faculté de médecine Paris Descartes
Page 15
Enseignement de la lecture critique d’article
1.2 Formulation de l’objectif et choix du type d’étude
1.2.1 Formulation de l’objectif
Une question de recherche doit être formulée de manière précise et complète, à partir de
l’observation de la pratique clinique et d’une revue de la littérature sur le sujet. Les méthodes
découlent de cet objectif. Il faudra vérifier dans l’article la cohérence entre l’objectif principal,
le critère de jugement principal et la conclusion.
Pour être complet, un objectif de recherche doit comprendre 4 éléments, qui seront repris
dans la suite du cours sous l’acronyme PECO. Ces éléments sont décrits dans le Tableau 3.
Tableau 3. Eléments de l'objectif d'une étude
Elément
Population (P)
Population cible
Explication
population pour laquelle on
souhaite pouvoir généraliser les
résultats de l’étude
Evaluation (E)
Elément soumis à évaluation
facteur de risque, nouveau
traitement, test diagnostique…
Comparaison (C)
Population de référence
Dans les études comparatives,
population servant de référence
pour mesurer une association
Outcome (O)
Critère de jugement principal
Synonymes : maladie, issue
clinique, outcome, endpoint
Exemple :
Evaluer l’efficacité d’un traitement par azithromycine (E) versus placebo (C) sur le risque
d’exacerbation de BPCO (O), chez des patients ayant une BPCO modérée à sévère (P)
Faculté de médecine Paris Descartes
Page 16
Enseignement de la lecture critique d’article
1.2.2 Mots-clés correspondant au type d’étude
Synonymes : schéma expérimental, plan d’étude, plan expérimental, study design.
Une étude peut être observationnelle ou interventionnelle. Dans une étude
observationnelle, on ne modifie pas la prise en charge des patients, on se contente de
recueillir des données contrairement aux études interventionnelles dans lesquelles on
modifie la prise en charge des patients du fait de l’intervention évaluée.
Figure 1 : Les différents types d'études observationnelles et interventionnelles
Une étude peut être transversale ou longitudinale.
Une étude transversale est une étude faite à un moment donné : les patients ne sont pas
suivis dans le temps.
Faculté de médecine Paris Descartes
Page 17
Enseignement de la lecture critique d’article
Une étude longitudinale est une étude faite sur une période donnée ; les patients sont
suivis dans le temps. Une étude de cohorte ou un essai contrôlé randomisé sont des
exemples d’études longitudinales.
1.2.3 Adéquation entre le type d’étude et la question posée
Le choix d’un type d’étude adapté pour répondre à la question posée est un élément
essentiel à évaluer.
Tableau 4. Types d’études appropriés pour répondre à différents types de questions de
recherche
Type de question
Exemples
Type d’étude
approprié
Décrire la prévalence d’une
Etudier la prévalence de la rétinopathie
Etude descriptive
pathologie
chez des diabétiques de type 2
transversale
Décrire l’incidence d’une
Etudier l’incidence des fractures
Etude descriptive de
pathologie, sa prise en
vertébrales ostéoporotiques, leur prise en
type cohorte prospective
charge et son devenir
charge et les récidives chez les femmes
ménopausées
Etudier les facteurs de risque
- Rechercher une association entre
Etude étiologique
de la survenue d’une
l’hypercholestérolémie et la survenue de
- étude de cohorte
maladie
la maladie d’Alzheimer
- étude cas-témoin
- Risque de sclérose en plaque lié à la
vaccination contre l’hépatite B
Identifier des facteurs
Evaluer les facteurs associés au décès
Etude pronostique de
pronostiques
chez des patients ayant eu un AVC
type cohorte prospective
Faculté de médecine Paris Descartes
Page 18
Enseignement de la lecture critique d’article
Evaluation de l’efficacité
Mesurer l’efficacité d’un médicament anti-
- Essai contrôlé
thérapeutique d’une
vitamine K pour prévenir la survenue
randomisé
intervention
d’accident thrombo-embolique chez les
patients de plus de 65 ans ayant une
fibrillation atriale
Evaluer la performance d’un
Evaluer la performance diagnostique de
- Etude transversale (le
test diagnostic
la scintigraphie pulmonaire
plus souvent)
ventilation/perfusion, chez les patients
avec suspicion d’embolie pulmonaire
Evaluer une stratégie de
dépistage ou une stratégie
diagnostique
Evaluer l’impact d’une stratégie de
Essai contrôlé
dépistage du cancer du sein par
randomisé
mammographie chez les femmes âgées
de 50 à 70 ans
1.3 Constitution d’un échantillon dans lequel l’étude sera réalisée
1.3.1 Echantillon, population source et population cible
L’objectif de l’étude est de décrire la répartition d’un caractère ou le lien entre deux ou
plusieurs caractères dans une population donnée à l’aide de paramètres (par exemple le lien
entre l’hypercholestérolémie et la survenue d’une maladie d’Alzheimer dans la population
française à l’aide d’un odds ratio). Cette population est la population cible qui correspond à
la population à laquelle on souhaite extrapoler les résultats de l’étude.
Il n’est généralement pas possible de réaliser l’étude dans l’ensemble de la population cible
et donc d’obtenir la « vraie » valeur, ou la valeur « réelle » du paramètre. Dans ce cas,
l’étude va consister à estimer la valeur du paramètre dans un échantillon de sujets issus de
cette population. On parle alors de paramètre « mesuré », « estimé » ou « observé ».Pour
pouvoir extrapoler cette valeur estimée du paramètre à l’ensemble de la population cible,
l’échantillon doit être représentatif (avoir les mêmes caractéristiques) de la population cible.
Faculté de médecine Paris Descartes
Page 19
Enseignement de la lecture critique d’article
En pratique, il est souvent très difficile de constituer l’échantillon dans l’ensemble de la
population cible (certains sujets sont moins facilement joignables : populations en situation
de précarité par exemple). L‘échantillon est donc tiré d’une population dite « source »
(population dans laquelle l’échantillon a été constitué).
Dans l’idéal, l’échantillon est représentatif de la population source qui correspond
parfaitement à la population cible.
Figure 2 : Constitution d’un échantillon
Remarque : Idéalement, la population source devrait être la population cible, mais ce n’est
pas toujours le cas. Par exemple, l’identification des facteurs de risque de maladies est
souvent réalisée chez des patients hospitalisés. Les patients non hospitalisés font bien partie
de la population cible de l’étude mais ne feront pas partie de l’échantillon.
Faculté de médecine Paris Descartes
Page 20
Enseignement de la lecture critique d’article
1.3.2 Notion de fluctuations d’échantillonnage
Si l’on constitue plusieurs échantillons (provenant de la même population source),
l’estimation des paramètres qui nous intéressent ne sera pas exactement la même d’un
échantillon à l’autre même si ceux-ci sont de même taille, du simple fait du hasard. C’est ce
qu’on appelle la fluctuation d’échantillonnage. La fluctuation d’échantillonnage est
inévitable dès qu’on constitue un échantillon. Plus la taille de l’échantillon augmente, plus la
fluctuation d’échantillonnage diminue et l’estimation des paramètres tend à se stabiliser.
Pour prendre en compte la fluctuation d’échantillonnage, plutôt que de donner une seule
valeur de l’estimation, on donne un intervalle dans laquelle la vraie valeur a de grandes
chances de se trouver. Cet intervalle est l’intervalle de confiance. Il est généralement à
95%. Si l’on faisait 100 études identiques et que l’on estimait 100 intervalles de
confiance à 95% d’un paramètre, alors 95 de ces intervalles (en moyenne)
contiendraient la vraie valeur du paramètre.
L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du
paramètre et de la mesure de sa variabilité (variance du paramètre).
1.3.3 Constitution de l’échantillon
Concernant la constitution de l’échantillon, les éléments suivants doivent être renseignés :
•
Le mode de recrutement des patients
Exemples de modalités de recrutement :
• par publicité, sur la base du volontariat
• parmi les patients se présentant à une consultation ou à l’entrée d’un hôpital,
sélection systématique et prospective de tous les patients consécutifs, ou d’un
échantillon aléatoire, ou par jour ou semaine alternée…
• à partir d’un registre (par exemple les listes électorales), tirage aléatoire de sujets
• Les critères d’éligibilité : comprennent des critères d’intérêt par rapport à la
question posée et des critères « pratiques » permettant de sélectionner des patients
Faculté de médecine Paris Descartes
Page 21
Enseignement de la lecture critique d’article
qui pourront participer à l’étude. Par exemple, si l’on décidait de ne pas inclure les
patients ne parlant pas français ou ayant des troubles de mémoire dans l’étude sur
la BPCO, ce serait plutôt pour des raisons pratiques que scientifiques.
On distingue les critères d’inclusion (il faut que les patients les remplissent tous
pour entrer dans l’étude) et les critères de non inclusion parfois appelés, à tort,
critères d’exclusion. Il suffit d’un seul critère de non-inclusion pour que le patient
ne puisse pas entrer dans l’étude. Les critères d’exclusion devraient désigner les
critères qui font que des sujets initialement inclus, donc répondant aux critères
d’inclusion et de non-inclusion, sont exclus dans un deuxième temps.
1.4 Rappels de biostatistiques
Il est indispensable de connaître les éléments de biostatistiques de base pour évaluer de
manière critique un article. En effet, il faut pouvoir interpréter les résultats et vérifier que les
analyses statistiques sont cohérentes avec l’objectif de l’étude. Les objectifs pédagogiques
du CNCI comprennent la connaissance des éléments de biostatistiques de base. Ainsi, il est
précisé que l’étudiant doit :
-
Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont
cohérentes avec le projet de travail
-
Analyser la présentation des résultats (présentation des tableaux et figures,
vérification de la présence des indices de dispersion)
-
Critiquer l’analyse des résultats.
Nous avons donc fait dans ce chapitre une synthèse des éléments de biostatistiques qui
nous paraissaient indispensables à connaître afin de répondre aux objectifs pédagogiques
du CNCI.
L’analyse statistique suit toujours le même plan dans une étude. La première étape est une
analyse descriptive des variables étudiées. La seconde étape consiste à faire des
comparaisons c'est-à-dire étudier l’association entre une variable qui peut être un facteur de
risque (dans une étude étiologique), un facteur pronostique (dans une étude pronostique), le
Faculté de médecine Paris Descartes
Page 22
Enseignement de la lecture critique d’article
traitement attribué par randomisation (dans un essai contrôlé randomisé) et un critère de
jugement. Il s’agit de l’analyse univariée. Enfin, la troisième étape permet d’évaluer
l’association entre plusieurs variables simultanément et un critère de jugement. Il s’agit de
l’analyse multivariée.
L’analyse diffère en fonction du type de variable. Nous allons donc commencer par introduire
les différents types de variables puis nous verrons les 3 différentes étapes de l’analyse
statistique.
1.4.1 Les différents types de variable
Une variable est un phénomène que l’on mesure. Une variable peut être selon le type
d’étude un facteur de risque, un facteur de confusion, un facteur pronostique, un critère de
jugement. Ces notions seront définies ultérieurement.
On distingue plusieurs types de variables :
1) Les variables quantitatives
Une variable est dite quantitative quand cela a un sens de dire qu’un résultat est plus
grand ou plus petit qu’un autre (elle reflète une notion de grandeur). Une variable
peut être quantitative discrète (si elle ne peut prendre qu’un nombre limité de valeurs
comme la pression artérielle systolique) ou continue (si elle peut prendre un nombre
infini de valeurs comme la douleur sur une échelle visuelle analogique continue).
2) Les variables qualitatives ou catégorielles
Une variable qui ne reflète pas une notion de grandeur est une variable dite
qualitative.
Une variable est dite binaire quand elle peut prendre 2 valeurs. Le genre (masculin
ou féminin) est un exemple de variable binaire.
3) Les variables censurées
En médecine, on s’intéresse fréquemment au délai avant la survenue d’un évènement,
par exemple le décès. En effet, ce n’est pas la même chose de décéder après un mois
Faculté de médecine Paris Descartes
Page 23
Enseignement de la lecture critique d’article
ou après un an de suivi. C’est le cas par exemple dans les essais en cancérologie dans
lesquels on veut montrer un bénéfice en termes de durée de survie avec un nouveau
traitement. La durée de survie est continue. Cependant, on aura une valeur pour les
patients décédés mais pas pour les patients survivants à la fin de l’étude. On sait
seulement que leur durée de survie dépasse leur durée de participation dans
l’étude. Afin d’analyser correctement ces patients, on doit définir une date de point qui
correspond à la fin de l’étude. Les patients qui ne sont pas décédés à la date de point
sont censurés. C’est pour cela que ces variables sont appelées variables censurées.
Les patients qui sont perdus de vue avant la date de point sont censurés à la date de la
dernière visite.
Pour chaque patient, on va calculer sa durée de participation dans l’étude qui va
correspondre :
-
Soit à la différence entre la date de décès et la date d’entrée dans l’étude pour les
patients décédés avant la date de point
-
Soit à la différence entre la date de point et la date d’entrée dans l’étude pour les
patients toujours en vie à la date de point
-
Soit à la différence entre la date de la dernière visite et la date d’entrée dans l’étude
pour les patients perdus de vue
Figure 3 : Diagramme de suivi de 3 individus
Faculté de médecine Paris Descartes
Page 24
Enseignement de la lecture critique d’article
1.4.2 Les différentes étapes de l’analyse statistique
1.4.2.1. Analyse descriptive
La première étape de l’analyse statistique consiste à décrire l’ensemble des variables
étudiées dans l’échantillon.
Analyse descriptive des variables qualitatives
Elle repose sur le calcul des fréquences (absolues) et des pourcentages (fréquences
relatives).
Par exemple, l’échantillon composé de 563 individus comportait 445 femmes (79%) et 118
(21%) hommes.
Les études descriptives peuvent avoir pour objet d’évaluer la prévalence ou l’incidence d’une
pathologie.
•
Prévalence
La prévalence mesure la proportion de malades présents dans la population à un
moment donné.
La prévalence se calcule par la formule :
La prévalence intègre 2 dimensions différentes : la durée de la maladie (plus la maladie dure
longtemps, plus le nombre de malades est important) et la vitesse d’apparition de
nouveaux cas de la maladie dans la population. Plus celle-ci est grande, plus la prévalence
augmente).
Comme la prévalence est estimée dans un échantillon de la population, il faut donner une
mesure de la précision de cette estimation. Pour cela, on calcule l’intervalle de confiance à
95% de la prévalence.
Faculté de médecine Paris Descartes
Page 25
Enseignement de la lecture critique d’article
Soit un échantillon de n sujets ou la prévalence observée vaut p0.
La variance vaut :
Avec q0 = p0*(1- p0)
D’où l’intervalle de confiance :
Selon certaines conditions d’applications : les 2 bornes Psup et Pinf vérifient que nPinf,
nPsup, nQinf, nQsup sont supérieurs ou égaux à 5.
•
Taux d’incidence
Le taux d’incidence quantifie le nombre de nouveaux cas de malades qui surviennent
dans la population pendant une période de temps donnée.
Il peut être calculé de façon exacte dans les études de cohorte (cf infra).
Avec PT : Nombre de Personnes-Temps à risque cumulé sur la période c'est-à-dire la
somme cumulée des durées pendant lesquelles les non-malades sont « à risque » de
devenir malade.
Faculté de médecine Paris Descartes
Page 26
Enseignement de la lecture critique d’article
Le taux d’incidence nécessite de préciser sur quelle période de temps le compte est fait.
Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur
l’ensemble des sujets de la population et de la durée totale de leur suivi.
Il faut également calculer l’intervalle de confiance à 95% du taux d’incidence.
Sachant que TI suit approximativement une loi normale d’où l’intervalle de confiance :
Il existe une relation entre le taux d’incidence et la prévalence :
P = TI * d
avec d : durée moyenne de la maladie
Cette formule est valable si la population est stable et le taux d’incidence est faible.
Calcul des personnes-temps :
Méthode exacte :
Dans le cas d’une étude de cohorte (suivi longitudinal), les données de suivi ainsi que les
dates de survenues des événements sont connues de façons précises pour chaque sujet
inclus. Ceci permet de calculer de manière exacte les personnes–temps « à risque ».
Le temps de participation ou durée d’exposition au risque est la différence entre la date de
fin de participation et la date d’origine (inclusion du patient), sachant que la date de fin de
participation peut être selon les patients la date de l’événement d’intérêt (patient C), la date
es dernières nouvelles (patient A), la date de point de l’étude (patient B).
Faculté de médecine Paris Descartes
Page 27
Enseignement de la lecture critique d’article
Méthode approchée :
Il arrive souvent que la date exacte des évènements, comme une maladie, soit inconnue. La
méthode exacte n’est donc plus utilisable car le temps réel d’exposition au risque (comme
tomber malade ou être perdu de vue) ne peut être estimé exactement, celui-ci nécessitant un
suivi longitudinal précis.
On utilise alors une méthode approchée qui suppose que les personnes décédées,
perdues de vue ou tombées malades, ont été présentes et non malades pendant la moitié de
la période observée.
Si la maladie est rare, le nombre de cas m est petit et que la population est importante N0.
N0 et Nfin = nombre de sujets non malades présents respectivement en début et fin de
période.
Nfin = N0 – ( pdv + M )
avec pdv comme perdu de vue et M comme mort
Faculté de médecine Paris Descartes
Page 28
Enseignement de la lecture critique d’article
Analyse descriptive des variables quantitatives
Toute variable quantitative doit être décrite avec un paramètre de position (ou paramètre
central) associé à un paramètre de dispersion qui permet de donner une estimation de la
dispersion de la mesure au sein de l’échantillon.
•
Paramètres de position
o Moyenne
o Médiane (= 50e percentile) : valeur d’une variable quantitative qui permet de
séparer la population en 2 groupes de même effectif. Si par exemple l’âge
médian est de 37 ans, 50% de la population est âgée de 37 ans ou moins et
50% de plus de 37 ans.
Remarque 1 : La médiane est moins sensible aux valeurs extrêmes que la moyenne (si
quelques personnes sont très âgées, la moyenne d’âge va beaucoup augmenter, mais pas
la médiane).
Remarque 2 : Il est intéressant d’étudier la distribution de la variable dans l’échantillon et de
distinguer les variables qui ont une distribution dite « normale » de celles qui ont une
distribution non normale
Pour tracer la distribution de la variable, on représente en abscisse les valeurs de la variable,
et en ordonnée, le nombre de patients.
Figure 4 : Courbe de distribution normale d’une variable continue
Faculté de médecine Paris Descartes
Page 29
Enseignement de la lecture critique d’article
Si la courbe a une forme de cloche comme ci-dessus, la variable a une distribution normale.
La moyenne est alors un bon paramètre de position.
Si la courbe n’a pas cette forme de cloche, il est préférable d’utiliser la médiane.
•
Paramètres de dispersion
o Ecart-type, variance (carré de l’écart-type) : représentent les « écarts à la moyenne ».
Plus la variance est élevée, plus le caractère est variable dans la population. On
parle aussi de plus grande hétérogénéité du caractère. L’écart-type et la variance
sont des paramètres de dispersion classiquement associés à la moyenne.
o Intervalle interquartile : intervalle entre le 25e (1er Quartile) et le 75e percentile (3ème
Quartile). Accompagne souvent la médiane : « L’âge médian est de 37 ans
(intervalle interquartile : 28-48) » signifie que 25% de la population a moins de 28
ans, 25% entre 28 et 37 ans, 25% entre 37 et 48 ans et 25% plus de 48 ans.
Analyse descriptive des variables censurées
Dans une analyse portant sur des variables censurées, on s’intéresse au risque instantané
de décès ou plus généralement de survenue de l’évènement.
Le risque instantané d’un événement représente la probabilité de présenter cet événement
à un moment donné, sachant qu’il n’est pas survenu précédemment.
L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de
survie (bien que le critère qui nous intéresse ne soit pas toujours le décès, cela peut être
une infection, un infarctus du myocarde,…). Cette courbe est généralement tracée avec la
méthode de Kaplan-Meier.
La méthode de Kaplan-Meier permet de représenter, à chaque temps d’événement, le
pourcentage de sujets n’ayant pas encore présenté l’événement d’intérêt.
En abscisse, est représentée la durée de suivi.
Faculté de médecine Paris Descartes
Page 30
Enseignement de la lecture critique d’article
En ordonnée, la probabilité (entre 0 et 1) de ne pas avoir présenté l’évènement ou la
proportion de patients (entre 0% et 100%) n’ayant pas encore présenté l’évènement.
La courbe commence à 1 (ou 100%) au temps 0, puisqu’au début de l’étude aucun patient
n’a présenté l’évènement. La courbe est décroissante, puisqu’au cours du temps certains
patients vont présenter l’évènement.
Exemple :
Figure 5: Exemple de courbe de Kaplan-Meier
Le suivi était de 24 mois dans cette étude.
Ici, l’évènement est l’absence de conception (chez des femmes subfertiles). L’axe des
ordonnées représente donc la probabilité de ne pas concevoir au cours du temps.
Faculté de médecine Paris Descartes
Page 31
Enseignement de la lecture critique d’article
On peut estimer la durée médiane de survenue de l’événement à partir d’une courbe de
Kaplan-Meier. C’est la durée de suivi pour laquelle 50% des sujets n’ont pas encore eu
l’événement.
La médiane de survie correspond au temps pour lequel la probabilité de survie est de 0.5 (ou
bien pour lequel il y a 50% des patients qui sont décédés).
Exemple :
Figure 6 : Estimation de la médiane de survie d’après une courbe de Kaplan-Meier
Dans cette étude, la durée médiane avant conception après une laparoscopie et une
hydrotubation chez des femmes ayant des problèmes de fertilité était de 6 mois.
Faculté de médecine Paris Descartes
Page 32
Enseignement de la lecture critique d’article
Remarque :
Si moins de 50% des sujets ont présenté l’événement au cours du suivi, on ne peut
estimer la durée médiane de survenue de l’événement.
Une autre présentation des données de survie, équivalente à la courbe de Kaplan-Meier,
consiste à représenter la proportion de sujets ayant présenté l’événement au cours du temps
(incidence cumulée). La courbe est alors inversée : elle commence à 0 (personne n’a
encore présenté l’événement au temps 0) et la courbe est croissante au cours du temps.
Exemple :
Figure 7: Exemple de courbe d’incidence cumulée
Faculté de médecine Paris Descartes
Page 33
Enseignement de la lecture critique d’article
1.4.2.2 Etude de l’association entre 2 variables (analyse univariée)
Il s’agit d’étudier l’association entre une variable qui peut être un facteur de risque (dans une
étude étiologique), un facteur pronostique (dans une étude pronostique), le traitement
attribué par randomisation (dans un essai contrôlé randomisé) et un critère de jugement.
Cette étape est appelée analyse univariée ou bivariée.
A- Tests statistiques
Lorsqu’on fait un test statistique, on cherche à déterminer si l’association entre 2
variables au niveau d’un échantillon est le simple fait du hasard, ou si elle est due à
une différence réelle dans la population.
Rappels des hypothèses et des définitions
La réalisation d’un test statistique repose sur 2 hypothèses :
L’hypothèse nulle (H0) : il n’y a pas de différence entre les 2 groupes
Par exemple dans le cadre d’un essai clinique :
Le traitement A a la même efficacité que le traitement B
L’hypothèse alternative (H1): il y a une différence entre les 2 groupes
Par exemple dans le cadre d’un essai clinique :
Le traitement A et le traitement B ont des efficacités différentes
La réalisation d’un test statistique nécessite de fixer des risques d’erreur. Le premier risque
d’erreur est considéré comme le plus grave. Il s’agit du risque de conclure à une différence
qui n’existe pas en réalité. C’est le risque alpha. Il est généralement fixé à 5%.
L’autre risque d’erreur est le risque beta défini par la probabilité de ne pas mettre en
évidence une différence qui existe.
Faculté de médecine Paris Descartes
Page 34
Enseignement de la lecture critique d’article
Tableau 5: Rappels des paramètres d’un test statistique
Paramètre du test
Définition
Risque alpha
Probabilité
Valeur
de
conclure
à
une
En général fixé à 5%
différence qui n’existe pas en réalité
Ou
Probabilité d’accepter H1 si H0 est
vraie
Risque beta
Probabilité de ne pas mettre en
1 - puissance
évidence une différence qui existe en
réalité
Ou
Probabilité d’accepter H0 quand H1
est vraie
Puissance
Probabilité de mettre en évidence une
En général supérieure à
différence qui existe en réalité
80%
Ou
Probabilité de rejeter H0 si H1 est
vraie
Avec les hypothèses présentées ci-dessus, le test est dit bilatéral car la différence entre
traitement A et traitement B peut aller dans les 2 sens.
Dans certains articles, les auteurs font un test unilatéral : ils font l’hypothèse que la
différence ne peut aller que dans un sens, c'est-à-dire que l’un des 2 traitements est
supérieur à l’autre.
Il est recommandé de faire des tests bilatéraux. La réalisation d’un test unilatéral impose
une correction du risque alpha qui devrait être à 2.5% mais cela n’est pas fréquemment fait
en pratique par les auteurs.
Faculté de médecine Paris Descartes
Page 35
Enseignement de la lecture critique d’article
Interprétation du résultat d’un test statistique
Le résultat du test statistique est le p ou degré de significativité (ou degré de
signification). Il s’agit de la probabilité que le hasard puisse expliquer à lui tout seul une
différence au moins aussi grande que celle observée. C’est donc une indication de la
certitude avec laquelle on peut conclure à une différence significative. Si le risque alpha est
de 5% :
Si p < 0.05, on peut conclure que la différence est statistiquement significative
Si p ≥ 0.05, il n’y a pas de différence statistiquement significative et on ne peut
rien conclure d’autre
Exemple 1 :
“At the end of the 12-week treatment courses, 27% of patients treated with efalizumab
(98/369) achieved PASI-75 compared with 4% of patients who received placebo (8/187),
p<0.001”
Dans cet exemple, p<0.05, il y a une association significative entre le traitement et le
PASI-75 qui est le critère de jugement principal de l’étude. p<0.001 signifie qu’il y a
moins d’une chance sur 1000 que le hasard puisse expliquer à lui tout seul une
différence au moins aussi grande que celle qu’on a observée (27% vs. 4%).
Exemple 2 :
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89”
Dans cet exemple, p >0.05, la probabilité de disparition de la verrue plantaire (le
critère de jugement principal) ne diffère pas significativement entre les 2 groupes de
traitements (acide salicylique et cryothérapie). On ne peut rien conclure d’autre.
Notamment, on ne peut pas conclure que les 2 traitements ont une efficacité
équivalente en termes de disparition de la verrue.
Remarque 1 : Le « 0.05 » correspond en réalité au risque alpha choisi, qui est en général de
5%.
Faculté de médecine Paris Descartes
Page 36
Enseignement de la lecture critique d’article
Remarque 2 : En aucun cas les tests statistiques n’indiquent l’importance d’une
différence. Ce n’est pas parce que la différence est statistiquement significative qu’elle est
cliniquement pertinente. Si vous faites une étude incluant un grand nombre de sujets, vous
aurez une forte puissance statistique pour montrer des différences statistiquement
significatives pour de faibles différences (sans aucun sens clinique).
Remarque 3 : En aucun cas un test statistique non significatif ne permet de conclure à
l’exactitude de l’hypothèse « Ho », c’est-à-dire à l’égalité des paramètres dans les
groupes comparés (sauf essais cliniques de non-infériorité et d’équivalence pour lesquelles
l’hypothèse Ho est différente). Ainsi dans un essai thérapeutique de supériorité (le plus
classique), il est erroné de conclure que les traitements sont équivalents quand la différence
n’est pas statistiquement significative.
Résultat du test statistique ne change pas le risque alpha
Remarque 4 : le p est une mesure a posteriori. Dans une étude si vous avez un p=0.01 et
qu’on vous demande quel est le risque alpha, celui-ci reste de 5%. A posteriori, la probabilité
de se tromper en concluant à une différence reste de 5%.
Les principaux tests statistiques
Le choix du test statistique dépend du type de variable que l’on veut évaluer et de sa nature.
-
Si on veut comparer une variable qualitative (par exemple le sexe) entre 2 groupes,
on fait un test du Chi 2 (test paramétrique) ou un test exact de Fisher (test non
paramétrique).
-
Si on veut comparer une variable quantitative (par exemple l’âge) entre 2 groupes, on
pourra faire un test t de Student si la variable quantitative a une distribution normale.
Si ce n’est pas le cas (exemple : dosage des leucocytes), on pourra faire un test de
Wilcoxon pour séries indépendantes qui est un test non paramétrique.
Remarque : Un test est dit paramétrique quand on fait des hypothèses sur la distribution des
variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse
d’une distribution normale). Un test est dit non-paramétrique quand on ne fait aucune
hypothèse sur la distribution des variables.
Faculté de médecine Paris Descartes
Page 37
Enseignement de la lecture critique d’article
-
Si on veut comparer une variable censurée (par exemple la survie) entre 2 groupes,
on fera un test du log rank qui permet de comparer les courbes de survie entre les 2
groupes.
Exemple :
Un essai randomisé contre placebo étudie l’efficacité de l’azithromycine (un antibiotique de la
classe des macrolides) pour la prévention des exacerbations de BPCO, chez des patients
ayant un antécédent de BPCO. Les investigateurs utilisent une méthode de survie. Ils
s’intéressent au risque de survenue d’une exacerbation de BPCO.
Figure 8. Exemple de courbes de Kaplan-Meier avec test du log-rank
Vous pouvez constater que :
• 2 courbes sont présentées, une pour chaque groupe de randomisation
• Le suivi était d’1 an dans cette étude (axe des abscisses)
• l’axe des ordonnées représente la proportion de patients n’ayant pas encore présenté
d’exacerbation de BPCO. Les courbes commencent à 1.0 au temps 0, puisqu’au
début de l’étude aucun patient n’a encore présenté l’événement d’intérêt.
• les courbes sont décroissantes, puisqu’au cours du temps les patients vont présenter
Faculté de médecine Paris Descartes
Page 38
Enseignement de la lecture critique d’article
une exacerbation de BPCO. La proportion de patients n’ayant pas encore présenté
d’exacerbation de BPCO diminue en conséquence.
• la courbe « azithromycine » est au-dessus de la courbe « placebo » donc à chaque
temps du suivi, la proportion de patients n’ayant pas encore présenté d’exacerbation
de BPCO est plus élevée dans le groupe azithromycine que dans le groupe placebo.
On dit aussi que le risque d’exacerbation de BPCO est plus bas dans le groupe
azithromycine que dans le groupe placebo.
•
Une autre manière d’interpréter ces courbes, peut-être plus intuitive, est de dire que
la courbe azithromycine est « plus à droite » que la courbe placebo, donc que la
première exacerbation de BPCO survient plus tard dans le groupe traité par
azithromycine que dans le groupe placebo. Cette phrase est équivalente à la
précédente.
• on peut retrouver les durées médianes de survenue de la première exacerbation de
BPCO en retrouvant l’abscisse correspondant à une ordonnée de 0,5 : 266 jours
pour le groupe azithromycine et 174 jours pour le groupe placebo.
• La différence apparente entre les courbes est-elle statistiquement significative, ou
bien pourrait-elle être due au hasard ? La valeur du degré de signification p du test
du log-rank est < 0,001, donc inférieure à 0,05. On peut conclure que les deux
courbes de survie obtenues sont significativement différentes (au risque alpha = 5%
près), donc que le risque de première exacerbation de BPCO est différent dans le
groupe azithromycine et dans le groupe placebo.
Faculté de médecine Paris Descartes
Page 39
Enseignement de la lecture critique d’article
B-Mesure de l’association entre deux variables
Mesure de l’association entre deux variables qualitatives
Les paramètres permettant d’évaluer l’association entre deux variables qualitatives
(typiquement la mesure de l’association entre une exposition et une maladie) sont le risque
relatif, l’odds ratio, le hazard ratio
Lorsque l’on parle de mesure d’association entre une exposition et une maladie, il est
souvent utile de faire un « tableau 2x2 » comme suit :
M+ : malades
E+
E-
M+
a
b
m1
M- : non malades
M-
c
d
m0
E+ : exposés
n1
n0
n
E- : non exposés
Remarque :
Si l’exposition est associée à un sur-risque de maladie, on s’attend à ce que la
majorité de la population soit dans les cases a et d. Si l’exposition est associée à un moindre
risque de maladie, on s’attend à ce que la majorité soit dans les cases b et c.
Risque relatif
Le risque relatif (RR) est le rapport des proportions de malades chez les exposés (a/n1) et
les non exposés (b/n0).
Faculté de médecine Paris Descartes
Page 40
Enseignement de la lecture critique d’article
Par exemple, si le RR vaut 2,2 dans la population, on peut dire que le risque de maladie
chez les exposés est 2,2 fois plus élevé que chez les non-exposés.
Odds Ratio
L’odds ratio (OR) est une autre mesure possible de l’intensité de l’association entre deux
facteurs qui est fréquemment utilisé car on peut le calculer quel que soit le type d’étude
(contrairement au risque relatif). Il s’agit d’un rapport des rapports ou d’un rapport des cotes.
Il est moins facile à interpréter que le risque relatif. Lorsque la prévalence de la maladie
est faible dans la population cible, l’OR est proche du RR. On dit que c’est un bon
estimateur du RR. On pourra interpréter l’OR comme un RR. C’est important car dans les
modèles de régression logistique, on ne peut estimer que des OR.
Conséquences :
-
si la prévalence de la maladie dans la population cible est de 8% et que l’on estime un
OR à 1,5 sur un échantillon, alors on peut dire sans trop se tromper « le risque de
maladie est 1,5 fois plus élevé chez les exposés que chez les non exposés » (phrase qui
correspond normalement au risque relatif)
-
si la prévalence de la maladie dans la population cible est de 35% et que l’on estime un
OR à 3,2 sur un échantillon, alors il est probable que la phrase « le risque de maladie est
3,2 fois plus élevé chez les exposés que chez les non exposés » soit fausse. Il faudra
dire « il y a 3.2 fois plus de malades par rapport aux non-malades chez les exposés que
de malades par rapport aux non-malades chez les non exposés. »
Hazard ratio
Le hazard ratio (hazard = risque en Anglais) est l’équivalent du risque relatif pour des
variables censurées. C’est le rapport des risques instantanés de chaque groupe.
Faculté de médecine Paris Descartes
Page 41
Enseignement de la lecture critique d’article
Risque relatif, Odds ratio et hazard ratio sont estimés dans un échantillon de la population.
Cependant, du fait des fluctuations d’échantillonnage, si on tire plusieurs fois un échantillon
dans une même population et que l’on mesure chaque fois le paramètre, les valeurs ne
seront jamais exactement les mêmes. Il faut donc accepter un certain degré d’incertitude,
une certaine imprécision. Par des méthodes statistiques, on peut estimer un intervalle dans
lequel la valeur réelle a « de bonnes chances » de se trouver.
Intervalle de confiance à 95%
Rappel de la définition : si l’on faisait 100 études identiques et que l’on estimait 100
intervalles de confiance à 95% d’un paramètre, alors 95 de ces intervalles (en
moyenne) contiendraient la vraie valeur du paramètre.
L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du
paramètre et de la mesure de sa variabilité (variance du paramètre). Attention à ne pas
confondre variance d’une variable et variance d’un paramètre :
• La variance d’une variable quantitative (par exemple variance de la pression
artérielle) mesure sa variabilité dans la population. Dans les articles, son estimation
(ou celle de l’écart-type) est souvent donnée dans le tableau descriptif de
l’échantillon (« tableau 1 »).
• La variance d’un paramètre (par exemple variance d’une moyenne ou d’un risque
relatif) mesure à quel point des estimations répétées sur des échantillons différents
donneraient des estimations différentes (fluctuation d’échantillonnage). La variance
du paramètre n’est pas donnée directement dans les articles, mais elle est utilisée
dans le calcul des intervalles de confiance à 95%.
• La variance d’un paramètre est liée à la variance de la variable (quantitative)
correspondante. Par exemple, la variance d’une moyenne d’âge est la variance de
l’âge divisée par le nombre de sujets.
Faculté de médecine Paris Descartes
Page 42
Enseignement de la lecture critique d’article
En pratique, l’intervalle de confiance permet de :
• Donner une idée de la précision de l’estimation : plus l’intervalle est étroit, plus
l’estimation est précise ; à l’inverse, plus l’intervalle est large, moins l’estimation est
précise
• Déterminer si une différence est statistiquement significative. Si l’intervalle de
confiance d’un RR, OR, HR ne contient pas la valeur 1 alors on peut conclure qu’il y
a une différence statistiquement significative.
Exemples :
• RR = 1,8 ; IC95% : 1,2 – 2,5
! RR significativement différent de 1
• RR = 2,5 ; IC95% : 0,8 – 3,2
! RR non significativement différent de 1
En résumé :
OR, RR, HR doivent être systématiquement présentés avec leur IC à 95% qui permet :
-
D’évaluer la précision de ces estimations
-
De déterminer s’il y a une différence statistiquement significative
Remarque :
Il revient au même de faire un test statistique et regarder si p est inférieur à 0,05 et de
regarder si l’IC à 95% d’un RR, OR ou HR contient la valeur 1.
Remarque : de l’usage du terme « significatif »
Le terme « significatif » est utilisé à outrance ; il a pourtant un sens précis : il signifie qu’un
test statistique a été réalisé sur un échantillon et qu’il a montré une différence
« significative », c’est-à-dire non liée au hasard. Pour utiliser ce terme, il faut donc
pouvoir donner un degré de significativité, ou un intervalle de confiance à 95%,
correspondant au test réalisé. Enfin, une différence peut être significative, mais pas un
Faculté de médecine Paris Descartes
Page 43
Enseignement de la lecture critique d’article
paramètre. On ne devrait pas dire « l’OR est significatif » mais « l’OR estimé est
significativement différent de 1 » ou « au risque 5%, l’OR estimé est différent de 1 ».
Exemple :
Dans la population des 20-30 ans résidant en Ile-de-France, on veut savoir si la
consommation d’alcool est associée à un sur-risque de diabète de type 1. Pour cela, on
décide de faire une étude cas-témoin. On tire au sort 150 personnes ayant un diabète de
type 1 (cas) et 150 personnes indemnes de cette pathologie (témoins). On leur demande
leur consommation d’alcool sur l’année précédente et on définit une surconsommation audelà d’un certain nombre de verres par semaines. Parmi les 150 cas, 30 ont une
surconsommation. Parmi les 150 témoins, 25 ont une surconsommation. L’odds ratio estimé
est de 1,25 (pour info : 30*125/(25*120)). Son intervalle de confiance à 95% est 0,67 – 2,35.
L’odds ratio n’est pas significativement différent de 1, car son intervalle de confiance contient
la valeur 1 (ici on utilise donc l’intervalle de confiance à 95% de l’odds ratio en guise de test
statistique). On ne montre pas d’association entre la consommation d’alcool et le risque de
diabète de type 1 dans la population des 20-30 ans résidant en Ile-de-France.
Mesure de l’association entre une variable qualitative et une variable quantitative
Il s’agit notamment de l’étude de l’association entre l’exposition à un facteur quantitatif
(comme l’âge) et une maladie. On estimera également des odds ratios et des hazards ratio
avec leur intervalle de confiance à 95%. Ils doivent s’interpréter pour une augmentation
d’une unité de la variable quantitative.
Exemple :
Dans une étude évaluant l’association entre l’âge (exprimé en années) et la survenue d’un
AVC, l’Odds ratio est de 1.05 (IC 95% 1.01-1.10). Cela signifie que le risque de faire un
AVC augmente de 5% pour chaque année supplémentaire (si on suppose que la prévalence
de l’AVC est faible afin d’interpréter l’Odds ratio comme un risque relatif et qu’il existe une
relation log-linéaire entre l’âge et la survenue d’un AVC).
Faculté de médecine Paris Descartes
Page 44
Enseignement de la lecture critique d’article
Mesure de l’association entre deux variables quantitatives
Pour mesurer l’association entre deux variables quantitatives, on calculera un coefficient de
corrélation entre ces deux variables qui peut varier entre -1 (les 2 variables sont totalement
corrélées et varient en sens contraire) et 1 (les 2 variables sont totalement corrélées et
varient dans le même sens). On teste si ce coefficient de corrélation est significativement
différent de 0. Une corrélation de 0 correspond à une absence de dépendance mais cela ne
signifie pas que les variables sont indépendantes.
1.4.2.3 Analyse multivariée
Prise en compte d’un ou plusieurs facteurs dans l’analyse
AVANT DE COMMENCER
Jusqu’ici on s’est intéressé au lien entre 2 facteurs : une exposition et une maladie.
Dans la réalité, d’autres facteurs sont susceptibles d’influencer cette relation, à moins que
l’étude ait été randomisée.
A-Définitions
Facteur intermédiaire
Un facteur intermédiaire est un facteur qui intervient dans la chaîne causale entre le facteur
d’exposition et le critère de jugement. Seule la connaissance du problème étudié permet de
supposer qu’un facteur donné est un facteur intermédiaire.
Faculté de médecine Paris Descartes
Page 45
Enseignement de la lecture critique d’article
Figure 9 : Définition d’un facteur intermédiaire
Facteur
d’exposition
Tabac
Facteur
intermédiaire
Critère de
jugement
SCA
CBC
K vessie
Mort
Exemple :
On étudie la relation entre la consommation de tabac et la mortalité globale. Dans cette
relation, on peut supposer que le fait d’avoir un cancer broncho-pulmonaire, un cancer de la
vessie, un syndrome coronaire aigu sont des facteurs intermédiaires car ce sont des
pathologies causées par la consommation de tabac, et qu’elles sont potentiellement létales.
Facteur de confusion
Un facteur de confusion est un facteur associé à la fois au facteur d’exposition et au
critère de jugement et qui n’est pas un facteur intermédiaire. Un facteur de confusion peut
expliquer une association (ou au contraire masquer une association existante).
Figure 10 : Définition d'un facteur de confusion
Faculté de médecine Paris Descartes
Page 46
Enseignement de la lecture critique d’article
Exemple :
On étudie l’association entre la profession et la mortalité en milieu hospitalier. On trouve que
les infirmières ont une espérance de vie plus longue que les médecins. Mais il existe un
facteur de confusion évident : il y a plus de femmes parmi les infirmières que parmi les
médecins, et les femmes ont une espérance de vie plus longue que les hommes. Le sexe
est donc un facteur associé à la fois à la profession et à la mortalité (ces associations
doivent normalement être vérifiées statistiquement), c’est un facteur de confusion dans la
relation retrouvée entre ces deux facteurs.
Facteur d’interaction
Il y a interaction lorsque la relation entre deux facteurs diffère selon les modalités d’un
troisième facteur, appelé facteur d’interaction ou facteur modificateur. L'interaction peut
être quantitative (RR plus élevé chez les femmes que chez les hommes) ou qualitative
(relation dans un sens chez les femmes, dans l’autre chez les hommes).
Exemples :
• Chez le sujet âgé, le syndrome métabolique prédit mieux le risque de syndrome
coronaire aigu chez les femmes que chez les hommes (interaction quantitative,
facteur d’interaction = sexe)
• Traitement efficace sur la mortalité globale chez des patients ayant un cancer de la
prostate à un stade avancé, mais délétère chez ceux ayant un cancer à un stade
moins avancé (interaction qualitative, facteur d’interaction = sévérité de la maladie)
Distinction facteur de confusion et facteur d’interaction
Pour voir si un facteur joue un rôle dans la relation entre l’exposition et la maladie et si oui
comment, il faut stratifier l’analyse selon ce facteur, c’est-à-dire estimer le paramètre pour
chaque sous-groupe (strate) correspondant à chaque modalité du facteur. On s’affranchit
ainsi de l’effet du facteur. Il y a alors 3 cas possibles :
Faculté de médecine Paris Descartes
Page 47
Enseignement de la lecture critique d’article
1. Si la relation est indépendante du facteur, elle sera retrouvée dans chaque strate
2. Si le facteur explique (au moins partiellement) la relation retrouvée, celle-ci
disparaîtra (ou sera atténuée) dans chaque strate. On dit que le facteur est un
facteur de confusion.
3. Si le facteur modifie la relation, on trouvera un résultat diffèrent dans chaque strate.
On dit que le facteur est un facteur d’interaction.
Exemple :
On montre une association entre la consommation de café et le risque de syndrome
coronaire aigu (SCA), avec un RR de 1,8 (intervalle de confiance à 95% : 1,4 – 2,3).
On pose alors la question du rôle de la consommation de tabac dans cette relation. On va
donc estimer le RR de la relation café-SCA chez les fumeurs d’une part, chez les nonfumeurs d’autre part.
• Cas n°1 :
La relation café-SCA existe chez les fumeurs et les non-fumeurs. Elle est indépendante de la
consommation de tabac.
Faculté de médecine Paris Descartes
Page 48
Enseignement de la lecture critique d’article
• Cas n°2 :
La relation café-SCA n’existe ni chez les fumeurs, ni chez les non-fumeurs. L’association est
donc expliquée par la consommation de tabac. La consommation de tabac est un facteur de
confusion dans la relation café-SCA.
• Cas n°3 :
La relation café-SCA est différente chez les fumeurs et les non-fumeurs. La consommation
de tabac est un facteur d’interaction dans la relation café-SCA. Ici on pourrait penser à une
synergie entre le café et le tabac (si l’on suppose que les relations sont causales).
Faculté de médecine Paris Descartes
Page 49
Enseignement de la lecture critique d’article
B-Prise en compte d’un seul facteur de confusion : l’ajustement de MantelHaenszel
L’ajustement est une technique statistique permettant de prendre en compte un facteur de
confusion au moment de l’analyse, donc a posteriori par rapport au tirage de l’échantillon
et au recueil de données.
Le principe est d’estimer un OR ou un HR (selon le type de variable considéré) ajusté sur le
facteur de confusion. Pour cela, la méthode la plus simple est d’estimer le paramètre dans
chaque strate du facteur de confusion potentiel, comme nous l’avons expliqué
précédemment, puis d’en faire une « moyenne » (méthode de Mantel-Haenszel).
En comparant le paramètre brut au paramètre ajusté, on peut également en déduire si
le facteur d’ajustement est un facteur de confusion.
Exemple :
Reprenons l’exemple de la relation café – risque de SCA.
Ce RR est appelé le RR brut ou RR non ajusté. Stratifions maintenant l’analyse sur la
consommation de tabac, en estimant un risque relatif ajusté (RRa) sur le tabagisme, qui est
une sorte de moyenne de RR1 et RR2. Nous retrouvons les cas exposés précédemment.
• Cas n°1 :
Le RR ajusté est très proche du RR brut, donc la relation café-SCA est indépendante de la
consommation de tabac
Faculté de médecine Paris Descartes
Page 50
Enseignement de la lecture critique d’article
consommation de tabac.
• Cas n°2 :
Le RR ajusté est différent du RR brut et est proche de 1. L’association café-SCA est
expliquée par la consommation de tabac. La consommation de tabac est un facteur de
confusion dans la relation café-SCA.
Remarque :
En cas d’interaction (cas n°3), les RR étant différents chez les fumeurs et les non-fumeurs,
cela n’a pas de sens d’en calculer une « moyenne ». Les résultats seront présentés
séparément chez les fumeurs et les non-fumeurs.
En pratique :
• On vérifie qu’il ne s’agit pas d’un facteur intermédiaire
• On cherche s’il y a une interaction
• Si oui, on sépare l’analyse en sous-groupes
• Si non, on calcule un paramètre ajusté
C-Prise en compte de plusieurs facteurs de confusion : les modèles multivariés
Synonymes : modèle de régression multivarié, régression multivariée
Nous venons de voir comment ajuster un paramètre sur un facteur de confusion.
Néanmoins, cette méthode présente plusieurs limites :
• Un seul facteur pris en compte
Faculté de médecine Paris Descartes
Page 51
Enseignement de la lecture critique d’article
• Problème des variables ayant de nombreuses modalités
• Problème des variables continues
Principes des modèles de régression
Le principe est de prédire la valeur d’une variable qui est le critère de jugement en fonction
d’autres variables. On les appellera respectivement la variable à expliquer et les variables
explicatives. Le modèle peut s’écrire comme suit :
Y(variable à expliquer) = (a x variable explicative 1) + (b x variable explicative 2) +…+
constante
C’est à dire
Y= aX1 + bX2 + …+ constante
Connaissant les valeurs de la variable à expliquer et des variables explicatives pour chaque
sujet, on va pouvoir estimer les coefficients a, b, etc. afin que le modèle prédise au mieux ce
que l’on a dans notre échantillon.
Remarque : un modèle de régression peut être univarié s’il n’y a qu’une seule variable
explicative (dans ce cas, on estimera un OR brut) ou multivarié s’il y a plusieurs variables
explicatives (prise en compte des facteurs de confusion) dans le modèle (dans ce cas on
estimera des OR ajustés).
L’analyse multivariée permet d’identifier des facteurs indépendamment associés à la
variable à expliquer, c'est-à-dire au critère de jugement. L’analyse multivariée est essentielle
dans les études étiologiques ou pronostiques car elle permet de prendre en compte les
facteurs de confusion en ajustant simultanément sur toutes les variables incluses dans le
modèle. Les résultats de cette analyse (les OR ou HR ajustés) sont les résultats principaux
dans ces études devant être mis en avant.
Principaux modèles de régression
Les seules choses qui vont changer entre les différents modèles de régression, ce sont le
type de variable à expliquer et l’interprétation des coefficients a, b, … (Tableau 6).
Faculté de médecine Paris Descartes
Page 52
53
Permet d’obtenir un OR ajusté
Modèles statistiques multivariés
(plusieurs variables explicatives)
Faculté de médecine Paris Descartes
Permet l’ajustement sur un ou
plusieurs facteurs de confusion
Régression logistique
Etape 3 : analyse multivariée
Régression linéaire
Régression logistique univariée Test de Mann Whitney (non
Mais aussi modèles statistiques
univariés (1 seule variable explicative) (OR brut)
paramètrique)
Tests statistiques
Test de Wilcoxon (non
paramètrique)
Test exact de Fisher (non
paramètrique)
Page 53
Permet d’obtenir un HR ajusté
Modèle de Cox
Modèle de Cox univarié (HR brut)
Test t de Student (paramètrique) Test du Log rank
Test du Chi 2 (paramètrique)
Courbe de Kaplan-Meier
(médiane de survie)
Etape 2 : analyse univariée ou
bivariée
Médiane ET minimum-maximum
ou Q1-Q3
Moyenne ET écart-type
Fréquences et pourcentages
Etape 1 : analyse descriptive
Exemple: douleur, qualité de vie Ex: mortalité, survenue
d’infarctus du myocarde
Ex: Mortalité à 30 jours
Critère de jugement censuré
Critère de jugement continu
Critère de jugement binaire
Tableau 6 : Récapitulatif des différentes étapes de l’analyse statistique selon le type de variable
Enseignement de Lecture critique d’article
Enseignement de la lecture critique d’article
1.5 Biais et validité interne
1.5.1 Notion de biais
Un biais est une erreur systématique dans l’estimation des résultats qui opère dans un
sens donné (par exemple surestimation de l’effet traitement).
Il faut distinguer le biais de l’erreur aléatoire due à la fluctuation d’échantillonnage qui
entraîne de l’imprécision autour du paramètre estimé. Plus l’échantillon est petit, plus l’erreur
aléatoire est importante. L’erreur aléatoire opère dans tous les sens (surestimation ou sousestimation).
Tableau 7 : Les grands types d’erreurs dans une étude
Type d'erreur
Causes
Conséquences
Erreur aléatoire
Erreur systématique= biais
La fluctuation d'échantillonnage, qui
peut être comprise comme le fait que 2
études strictement identiques en tout point
Toute erreur ou défaut dans la
auront des résultats plus ou moins
conception ou la mise en œuvre de
différents, du simple fait du hasard.
l'étude peut être une source
possible de biais.
La fluctuation d'échantillonnage est
d'autant plus importante que l'échantillon
comporte peu de sujets.
- imprécision des estimations
car la précision des estimations (intervalle
de confiance à 95%) doit prendre en
compte l'importance de la fluctuation
d'échantillonnage (variance du paramètre
- sous- ou surestimation
estimé, voir p.42)
systématique
Risque de conclusion erronée
- si mesure d'association : incapacité de
conclure à une association pourtant réelle
(perte de puissance) en raison d'une
estimation trop imprécise du paramètre
(OR, RR, HR)
Faculté de médecine Paris Descartes
Page 54
Enseignement de la lecture critique d’article
Figure 11 : Différences entre imprécision et biais
Chaque flèche représente le résultat obtenu sur un échantillon.
La première cible correspond à la situation idéale : l’évaluation est à la fois précise et non
biaisée (absence d’erreurs aléatoire et systématique).
La seconde cible correspond à une évaluation peu précise mais non biaisée. Il s’agit
probablement d’estimations faites dans un échantillon de petite taille avec des fluctuations
d’échantillonnage (erreur aléatoire). Les flèches se répartissent un peu partout mais assez
loin du point central.
La troisième cible correspond à une évaluation précise mais biaisée. Les flèches sont
centrées sur un point qui n’est pas le point central.
1.5.2 Les principaux biais
De très nombreux biais sont décrits dans la littérature. Le type de biais et la terminologie
varient selon le type d’étude. Nous verrons dans la partie 2, les biais propres à chaque type
d’étude. Mais, globalement les biais sont de 3 types principaux : les biais de sélection, les
biais de classement et les biais de confusion.
1.5.2.1 Biais de sélection
Un biais de sélection est un biais lié à la constitution de l’échantillon ou des
groupes de comparaison. Il peut être dû :
Faculté de médecine Paris Descartes
Page 55
Enseignement de la lecture critique d’article
• Au fait que l’échantillon n’est pas représentatif de la population cible pour des
caractéristiques liées à la maladie. Il peut résulter d’une sélection particulière des
sujets aux différentes étapes de sélection de l’échantillon analysé (Figure 12) :
o Population source non représentative de la population cible pour des
caractéristiques liées à la maladie (problème de définition des critères
d’éligibilité)
o Echantillon inclus non représentatif de la population source pour des
caractéristiques liées à la maladie (problème de recrutement des sujets :
étude non proposée à tous les sujets éligibles, nombreux refus de participer,
etc.)
• A un mauvais choix du groupe de référence comme cela peut être le cas dans les
études cas-témoin. Les témoins peuvent ne pas être représentatifs de la population
de non-malades.
Exemple :
Dans une étude cas-témoin évaluant l’association entre la consommation de café et
le cancer du pancréas, les témoins étaient des malades hospitalisés dans un service
de gastro-entérologie pour un problème de côlon irritable. Le choix du groupe témoin
pose problème ici car la consommation de café est déconseillée chez les patients
ayant un syndrome du côlon irritable. Le groupe de référence n’est pas représentatif
de la population de non-malades car il s’agit de patients hospitalisés et que leur
consommation de café est différente de celle de l’ensemble des non-malades.
Faculté de médecine Paris Descartes
Page 56
Enseignement de la lecture critique d’article
Figure 12 : Etapes de la sélection de l’échantillon analysé
1.5.2.2 Biais de classement
Synonymes : biais de mesure, biais d’information (dont biais de mémoire)
Un biais de classement est un biais dans la mesure de l’élément soumis à évaluation
ou du critère de jugement. On ne classe pas correctement les sujets en « exposés/non
exposés », ou en « malades/non malades » (Figure 13).
Figure 13: Situation du processus de classement dans le schéma général
Faculté de médecine Paris Descartes
Page 57
Enseignement de la lecture critique d’article
Il est important de distinguer les biais de classement différentiel, des biais de classement non
différentiel.
On parle d’erreur
différentielle lorsque les probabilités d'erreur de classement sur la
maladie sont différentes chez les exposés et chez les non-exposés (ou lorsque les
probabilités d'erreur de classement sur l’exposition sont différentes chez les malades et chez
les non-malades). Les erreurs différentielles peuvent conduire à une surestimation ou à une
sous-estimation de l’association (la valeur de l’odds-ratio ou du risque relatif peut être soit
augmentée soit diminuée).
On dit qu'une erreur de classement sur la maladie (ou sur le facteur de
risque/exposition) est non-différentielle lorsqu'elle survient indifféremment chez les
exposés et chez les non-exposés (respectivement chez les malades et chez les nonmalades). On peut montrer que les erreurs non différentielles conduisent à une sousestimation de l’association exposition-maladie, autrement dit rapprochent de 1 la valeur du
risque relatif ou de l’odds-ratio. Cette connaissance de la direction du biais est importante
pour l’interprétation des résultats. Son ampleur, et donc la perte de puissance qui en résulte,
est proportionnelle à la fréquence des erreurs de classement.
Exemples de biais différentiel :
-
Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins
D’une façon générale, il est préférable d’avoir des erreurs de classement non
différentielles, car le sens du biais est connu, et le manque de précision de l’estimation peut
être contrebalancé par une augmentation de l’effectif.
Faculté de médecine Paris Descartes
Page 58
Enseignement de la lecture critique d’article
Comment éviter les biais de classement ? Il convient d’y penser lors la planification de
l’étude car après il sera trop tard.
"
Éviter que les erreurs soient différentielles +++
- Les procédures de suivi, de diagnostic, de recueil d’information doivent être
standardisées, objectives et identiques pour E+ et E- (M+ et M-).
- Utiliser une procédure d’aveugle à chaque fois que possible, former (contrôler) les
enquêteurs
- Même délai entre exposition et interrogatoire pour les cas et les témoins
"
Limiter les erreurs de mesures +++
- Utiliser des définitions les plus précises (valides et reproductibles) possibles pour E
et M
1.5.2.3 Biais de confusion
Un biais de confusion est lié à la présence d’un (ou plusieurs) facteur de confusion
non contrôlé. Un facteur de confusion (confounding factor) est un facteur qui perturbe
l’association entre l’exposition au facteur étudié et la maladie. Le biais de confusion
est propre aux études observationnelles (car dans les essais contrôlés randomisés, la
randomisation permet d’équilibrer les facteurs de confusion connus et inconnus entre
les 2 groupes).
Pour qu’une variable soit facteur de confusion, il faut que la variable soit liée au paramètre
étudié (maladie), soit liée à l’exposition et ne soit pas un facteur intermédiaire.
Faculté de médecine Paris Descartes
Page 59
Enseignement de la lecture critique d’article
Selon le sens de ces relations (positives ou négatives), l’effet de confusion peut conduire à
une surestimation ou une sous-estimation de l’association (OR ou RR)..
Contrairement aux autres biais (sélection et classement), il est possible de tenir compte des
facteurs de confusion lors de l’analyse statistique. En effet, le biais de confusion peut être
en partie contrôlé par l’analyse statistique multivariée qui en ajustant sur les facteurs de
confusion potentiels permet de corriger l’estimation des OR ou RR. Cette correction peut
malheureusement n’être qu’imparfaite, on parle alors de confusion résiduelle (residual
confounding). La prise en compte de ces facteurs de confusion dans l’analyse nécessite au
préalable que les informations sur ces facteurs de confusion aient été préalablement
renseignées.
D’autres moyens existent pour prendre en compte un facteur de confusion lors de la
planification de l’étude. On peut notamment restreindre la population d’étude à une seule
strate du facteur de confusion ou utiliser l’appariement de façon à équilibrer la distribution du
facteur de confusion entre le groupe exposé et le groupe non-exposé, afin que le facteur de
confusion ne soit plus lié à l’exposition. Par exemple, si l’âge est facteur de confusion, on
associe à chaque sujet exposé un sujet non exposé de même classe d’âge.
1.5.3 Quels sont les réflexes à avoir ?
Il faut savoir repérer et décrire un biais, c’est-à-dire :
• expliquer en quoi c’est un biais
• en donner le type (parmi : biais de sélection, biais de classement (ou d’information),
biais de confusion, plus quelques biais plus spécifiques de certains types d’articles
que nous verrons par la suite),
• en donner le sens lorsque c’est possible (surestimation ou sous-estimation, ou bien
« dans le sens de la conclusion souhaitée » ou non)
• en évaluer l’intensité et l’impact potentiel sur le résultat
• déterminer s’il s’agit d’un biais différentiel ou non, c'est-à-dire s’il modifie le résultat
de la même façon pour tous les groupes.
Faculté de médecine Paris Descartes
Page 60
Enseignement de la lecture critique d’article
A retenir : les biais peuvent être introduits lors de la conception/le design de l’étude ou lors
de son déroulement.
Les biais sont classiquement plus importants et nombreux dans les études observationnelles
mais il peut y avoir des biais même dans un essai avec tirage au sort, par exemple, en
raison d’une méthode de randomisation inadéquate
1.5.4 Définition de la validité interne
La validité interne est le fait qu’un résultat observé soit un bon reflet de la réalité et qu’il
n’est pas dû à un biais. L’évaluation de la validité interne passe par la la recherche des
défauts méthodologiques de l’étude et des biais potentiels. Une étude avec une
méthodologie adéquate, permettant de limiter le risque de biais pour les principaux biais
évoqués, aura une bonne validité interne.
1.6 Validité externe
La validité externe peut se définir comme la transposabilité (applicabilité,
généralisabilité) des résultats à la pratique courante.
Son évaluation repose sur les éléments suivants :
•
Caractéristiques des patients inclus dans l’étude : la population de patients inclus
dans l’étude correspond-elle à la population de patients à laquelle on appliquera les
résultats ? Autrement dit, la population incluse dans l’étude est-elle représentative de
la population cible ? Si les patients inclus dans l’essai sont plus jeunes et moins
sévères que la population de patients habituellement pris en charge, les résultats de
l’essai seront difficilement applicables à la pratique courante.
•
Caractéristiques des centres : les résultats des études monocentriques sont moins
généralisables que les résultats des études multicentriques. Le niveau d’expertise
des centres est également à prendre en compte pour évaluer la transposabilité des
résultats. Par exemple, si un essai est réalisé dans un centre de référence
universitaire avec un volume d’activité important, les résultats ne seront pas
Faculté de médecine Paris Descartes
Page 61
Enseignement de la lecture critique d’article
forcément généralisables à des centres pratiquant moins d’interventions ou avec un
plateau technique différent.
•
Caractéristiques des pays : par exemple, les résultats des études réalisées en
Chine ne sont pas forcément généralisables en France.
•
Caractéristiques des interventions dans les essais : est-il possible de reproduire
les interventions évaluées dans l’essai dans notre contexte de soins ? Les
interventions sont-elles suffisamment bien décrites pour être reproduites ?
1.7 Niveau de preuve d’une étude
Le niveau de preuve d’une étude dépend de l’adéquation de l’étude à la question posée ainsi
que de l’existence de biais dans la planification ou la conduite de l’étude. La Haute autorité
de santé a établi une classification du niveau de preuve des études et une gradation des
recommandations (recommandations de bonne pratique) selon le niveau de preuve des
études sur lesquelles les recommandations s’appuient (Tableau 8).
Faculté de médecine Paris Descartes
Page 62
Enseignement de la lecture critique d’article
Tableau 8: Niveaux de preuve scientifique de la littérature et grade des recommandations adaptée de
la Haute Autorité de Santé
Niveau de preuve
Type d'étude
Grade des recommandations
scientifique fourni
par la littérature
Niveau 1
-
Essais comparatifs randomisés de forte puissance
-
Méta-analyses d'essais comparatifs randomisés
-
Analyse de décision fondée sur des études bien
GRADE A
Preuve scientifique établie
menées
Niveau 2
-
Essais comparatifs randomisés de faible puissance
-
Études comparatives non randomisées bien
GRADE B
Présomption scientifique
menées
Niveau 3
-
Études de cohorte
-
Études cas-témoin
GRADE C
Niveau 4
-
Études comparatives comportant des biais
Faible niveau de preuve
importants
scientifique
-
Études rétrospectives
-
Séries de cas
-
Études épidémiologiques descriptives
(transversales, longitudinales)
Faculté de médecine Paris Descartes
Page 63
Enseignement de la lecture critique d’article
2ème partie : Spécificités des différents types d’articles
2.1 Evaluation d’un test diagnostique
2.2 Evaluation étiologique (évaluation de facteurs de risque)
2.3 Evaluation de facteurs pronostiques
2.4 Evaluation d’une intervention thérapeutique
2.5 Evaluation d’une intervention de dépistage
Faculté de médecine Paris Descartes
Page 64
Enseignement de la lecture critique d’article
2.1 Evaluation d’un test diagnostique
AVANT DE COMMENCER
« Le diagnostic est l'art de reconnaître les maladies par leurs symptômes et de les
distinguer les unes des autres » (Littré)
Avant qu’un nouvel outil diagnostique (nouveau test diagnostique, algorithme ou
score diagnostique, signe clinique, etc.), ne puisse être utilisé, il faut montrer :
• qu’il a de bonnes performances diagnostiques (permet de discriminer les malades et
les non-malades de façon fiable) ! c’est l’objet de ce chapitre
• que son utilisation améliore le devenir des patients en pratique courante ! on mène
alors un essai randomisé comparant l’évolution clinique d’un groupe de patients
bénéficiant de l’outil diagnostique à l’évolution clinique d’un groupe contrôle).
Lorsqu’un article traite d’une question diagnostique, il est important d’identifier lequel de ces
deux objectifs est traité, car les questions à se poser ne seront pas les mêmes.
Les réflexes :
• Test de référence
• Validité
• Fiabilité
Faculté de médecine Paris Descartes
Page 65
Enseignement de la lecture critique d’article
2.1.1 Formulation de l’objectif
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO où le P représente la population concernée; le E, le test à
évaluer; le C, le test de référence et le O, le critère de jugement c'est-à-dire ce qu’on cherche
à diagnostiquer.
Par exemple, évaluer la performance diagnostique de la palpation manuelle (E) par rapport à
l’échographie (C) pour diagnostiquer des présentations non-céphaliques (O) chez des
femmes en fin de grossesse (P).
2.1.2 Type d’étude
Les études diagnostiques peuvent faire appel à des études transversales ou de cohorte
selon qu’il faut que les individus soient suivis dans le temps.
2.1.3 Population d’étude
La population de l’étude doit être proche de la population à laquelle seront appliqués les
résultats de l’étude. En effet, le test peut être très performant dans un contexte mais
beaucoup moins dans un autre.
Si la population d’étude comporte soit des patients trop malades soit trop peu malades, il y a
un risque de biais de sélection appelé ici biais de spectre.
De plus, les résultats seront difficilement transposables à la pratique clinique courante.
2.1.4 Choix du test de référence
Il s’agit d’un élément très important à évaluer. Le test de référence est le test qui va
permettre d’identifier véritablement les malades et les non-malades et d’évaluer la
performance diagnostique du test évalué (en Anglais, diagnostic accuracy). Il doit donc être
incontestable pour différencier les personnes malades des non-malades et préalablement
validé. On l’appelle également gold standard.
Faculté de médecine Paris Descartes
Page 66
Enseignement de la lecture critique d’article
2.1.5 Réalisation des tests (test à évaluer et test de référence)
- les 2 tests (test à évaluer et test de référence) doivent être réalisés chez tous les
patients
La réalisation de l’examen de référence uniquement chez les patients avec un résultat positif
du test à évaluer surestime les performances diagnostiques du test. Il y a un risque de biais
de vérification (work up bias).
- les 2 tests doivent être réalisés de manière standardisée
- les 2 tests doivent être interprétés indépendamment l’un de l’autre (la personne qui
évalue le nouveau test doit être en aveugle des résultats de l’examen de référence)
Sinon il y a un risque de biais de classement
2.1.6 Evaluation de la performance diagnostique d’un test
2.1.6.1 Mesure de la validité d’un test diagnostique
Un test diagnostique est valide s’il mesure bien ce qu’il est sensé mesuré. Les principaux
indicateurs de la validité d’un test sont la sensibilité, la spécificité, les valeurs prédictives
positives et négatives et les rapports de vraisemblance positifs et négatifs. Leur définition
doit être connue.
Il est fortement recommandé de refaire un tableau de contingence
Tableau 9 : Tableau de contingence type pour l'analyse des résultats d'une étude
diagnostique
Test de référence positif
Test de référence négatif
(malades)
(non malades)
Test évalué positif
Vrais positifs (VP)
Faux positifs (FP)
Test évalué négatif
Faux négatifs (FN)
Vrais négatifs (VN)
Faculté de médecine Paris Descartes
Page 67
Enseignement de la lecture critique d’article
T+
T-
M+
VP
FN
M-
FP
VN
Tableau 10 : Rappel de la définition des différents paramètres permettant d’évaluer la
validité d’un test
Faculté de médecine Paris Descartes
Page 68
Faculté de médecine Paris Descartes
VPN
Valeur prédictive
négative
Probabilité de ne pas être malade (M-) si on a un test
négatif (T-)
Probabilité d'être malade (M+) si on a un test positif
(T+)
VP=Vrais Positifs ; VN=Vrais Négatifs ; FP=Faux Positifs ; FN=Faux Négatifs
VPP
Valeur prédictive
positive
Rapport entre les probabilités d'avoir un test négatif
RV- ou RVN chez les malades d'une part, chez les non-malades
d'autre part
Rapport de
vraissemblance
négatif
P(M-/T-) = VN / (VN + FN)
P(M+/T+) = VP / (VP + FP)
P(T-/M+) / P(T-/M-)
= (1 - Se) / Sp
P(T+/M+) / P(T+/M-)
= Se / (1 - Sp)
P(T-/M-) = VN / (VN + FP)
Probabilité d'avoir un test négatif (T-) si on n'est pas
malade (M-)
Rapport entre les probabilités d'avoir un test positif
RV+ ou RVP chez les malades d'une part, chez les non-malades
d'autre part
Sp
Spécificité
P(T+/M+) = VP / (VP + FN)
Calcul
Probabilité d'avoir un test positif (T+) si on est malade
(M+)
Définition
Rapport de
vraissemblance
positif
Se
Notation
Sensibilité
Nom du paramètre
VN + FN = nombre total de sujets ayant un test
négatif
La VPN dépend de la Se, SP et de la
prévalence de la maladie
VP + FP = nombre total de sujets ayant un test
positif
La VPP dépend de la Se, SP et de la
prévalence de la maladie
Le sujet a RVN fois plus de risque d'avoir un
test négatif s'il est malade que s'il ne l'est pas.
Le sujet a RVP fois plus de risque d'avoir un
test positif s'il est malade que s'il ne l'est pas
VN + FP = nombre total de sujets qui ne sont
pas malades
VP + FN = nombre total de sujets malades
Remarque
Enseignement de la lecture critique d’article
Page 69
Enseignement de la lecture critique d’article
• Indicateurs de validité indépendants de la prévalence de la maladie :
o Sensibilité
o Spécificité
o Rapport de vraisemblance positif (RVP)
o Rapport de vraisemblance négatif (RVN)
Remarque :
Souvent, lorsque la sensibilité d’un test donné augmente, la spécificité diminue et vice-versa.
C’est une question de seuil pour lequel on définit la positivité du test.
Interprétation d’un rapport de vraisemblance
Un test positif est RVP fois plus fréquent chez les malades que chez les non-malades. Par
exemple, si le RVP =8 cela signifie qu’il y a 8 fois plus de chance d’avoir un test positif
lorsque la personne est malade que lorsqu’elle n’est pas malade.
Un test négatif est 1/RVN plus fréquent chez les non-malades que chez les malades. Par
exemple, si le RVN est=0.25, cela signifie qu’il y a 4 fois plus de chance de présenter un test
négatif si la personne n’est pas malade que si la personne est malade.
Tableau 11 : Interprétation des rapports de vraisemblance positif et négatif
RVP
RVN
Propriété discriminante
>10
<0.1
importante
5-10
0.1-0.2
modérée
2-5
0.2-0.5
faible
1-2
0.5-1
Très faible
Faculté de médecine Paris Descartes
Page 70
Enseignement de la lecture critique d’article
Plus le RVP est élevé, plus on aura confiance dans le résultat d’un test positif pour confirmer
le diagnostic.
Plus le RVN est faible, plus on aura confiance dans le résultat d’un test négatif pour éliminer
le diagnostic.
• Indicateurs de validité dépendants de la prévalence de la maladie :
o Valeur prédictive positive (VPP)
o Valeur prédictive négative (VPN)
Remarque :
La VPP et la VPN dépendent de la prévalence de la maladie dans la population car
elles dépendent de la probabilité que le patient soit malade. En effet, si on imagine une
population fictive où la moitié est malade, la probabilité que le patient soit malade sera
élevée, quel que soit le résultat du test ! donc la VPP sera élevée et la VPN faible. On peut
faire le raisonnement inverse si la maladie est rare.
Cas d’un test donnant un résultat sur une échelle quantitative continue
La distribution des valeurs du test dans un échantillon de sujets malades et dans un
échantillon de sujets non-malades peut être représentée comme dans la figure ci-dessous.
La fixation d’un seuil de normalité S (ou ligne de partage) définit la répartition des vrais
positifs, vrais négatifs, faux positifs et faux négatifs. Le déplacement de la ligne de partage
du test modifie les proportions de VP, VN, FP, FN.
Faculté de médecine Paris Descartes
Page 71
Enseignement de la lecture critique d’article
Sujets non malades
Sujets malades
VN
VP
FN FP
S
Valeurs du Test
La représentation graphique des points définis par le couple sensibilité en ordonnée et taux
de faux positifs (1 – spécificité) en abscisse, variant pour tous les seuils possibles du test,
permet de construire une courbe ROC (Receiving Operating Curve).
Cette courbe présente l’avantage de rendre compte des propriétés diagnostiques
intrinsèques (sensibilité et spécificité) d’un test à réponse quantitative continue, quelque soit
le seuil choisi pour définir une réponse normale (négative) ou anormale (positive).
Plus la courbe s’étire vers le haut à gauche, plus elle a tendance à passer par un point
d’abscisse 0 et d’ordonnée 1, ce qui signifie qu’il existe un seuil du test pour lequel la
sensibilité et la spécificité se rapprochent de 100%.
Inversement, si la courbe se rapproche de la diagonale, cela signifie que pour un plus grand
nombre de seuils possibles, la sensibilité est égale à (1 – spécificité), ce qui équivaut à un
rapport de vraisemblance positif = 1, donc un test non discriminant, dont le gain par rapport à
la probabilité pré-test est nul.
Faculté de médecine Paris Descartes
Page 72
Enseignement de la lecture critique d’article
Construction d’une Courbe ROC
M+
1
p1> S
VP
FP
p1 ≤ S
FN
VN
M+
M-
0,8
Seuil = 0,6
Sensibilitéé
Sensibilit
0,6
Seuil = 0,4
M-
p1> S
VP
FP
p1 ≤ S
FN
VN
M+
M-
p1> S
VP
FP
p1 ≤ S
FN
VN
Seuil = 0,2
Seuil = 0,4
0,4
Seuil = 0,2
0,2
0
0
0,2
0,4
0,6
0,8
Seuil = 0,6
1
1- Spé
Spécificité
cificité (taux de faux positifs)
Sensibilitéé
Sensibilit
Signification de l’aire sous la courbe ROC (AUC)
1
Discrimination
0,8
parfaite :
___
0,4
Exemple :
……. AUC = 0,8
0,2
Pas de
discrimination : - - - - AUC = 0,5
0,6
0
0
0,2
0,4
0,6
0,8
AUC = 1
1
1- Spé
Spécificité
cificité (taux de faux positifs)
L’estimation de l’aire sous la courbe ROC est donc un bon indicateur de la performance
discriminante (ou validité) du test. Plus cette aire est proche de 1, plus le test est
discriminant.
La comparaison des aires sous la courbes ROC de 2 tests diagnostiques est une bonne
méthode pour comparer leur performance, en s’affranchissant du choix d’un seuil.
Faculté de médecine Paris Descartes
Page 73
Enseignement de la lecture critique d’article
2.1.6.2 Mesure de la fiabilité d’un test diagnostique
La fiabilité d’un test correspond à son caractère reproductible. Un test diagnostique est
fiable s’il donne le même résultat lorsqu’il est répété, par des opérateurs différents, dans des
conditions différentes. C’est particulièrement important lorsque l’interprétation d’un test est
subjective
ou
« opérateur-dépendante »
(par
exemple
en
imagerie
ou
en
anatomopathologie).
Le Coefficient kappa est le pourcentage de concordance prenant en compte la
concordance due au hasard. Son calcul nécessite d’évaluer la concordance inter-opérateur
(Tableau 12). Le coefficient kappa va de -1 (les 2 opérateurs sont en désaccord total) à 1
(les opérateurs sont en accord total). Il est habituellement admis que le coefficient kappa est
« bon » au-dessus de 0,80 et « correct » entre 0,60 et 0,80, mais selon l’utilisation clinique
du test, on pourra exiger une fiabilité plus ou moins importante.
Tableau 12 : Mesure de la concordance
Test par opérateur 2 positif
Test par opérateur 1
positif
C1
Test par opérateur 1
négatif
NC2
Test par opérateur 2 négatif
NC1
C2
C1+C2 : Nombre de tests concordants ; NC1+NC2 = nombre de tests non concordants
Cas d’un test donnant un résultat sur une échelle quantitative continue
Il est important de ne pas confondre corrélation et concordance de 2 mesures. Il existe
une bonne corrélation entre 2 mesures lorsque l’association entre les 2 mesures peut être
représentée par une fonction linéaire de la forme Y =aX+b. Une bonne corrélation n’implique
donc pas forcément une bonne concordance (Y = X).
La concordance des deux méthodes de mesure peut être évaluée graphiquement par :
1)
la représentation des valeurs de X en abscisse et de Y en ordonnée :
Faculté de médecine Paris Descartes
Page 74
Enseignement de la lecture critique d’article
Y
Y
Y
X
X
X
Moyennes voisines, mais
Bonne corrélation
Bonne concordance
corrélation et
(Y= aX+b) mais mauvaise
(Y = X)
concordance mauvaises
concordance
Exemple : Dans un échantillon de patients, on obtient pour chaque patient deux mesures de
la pression artérielle obtenue l’une par un médecin avec un manomètre à mercure (Yi),
l’autre obtenue par les patients avec un appareil automatique d’auto-mesure (Xi).
(d’après Little et al. BMJ 2002 ; 325 :254)
2)
la représentation de la différence d = X-Y (en ordonnée) rapportée à la moyenne
des deux mesures (en abscisse) (diagramme de Bland et Altman). Ce graphe permet
de visualiser :
-
un écart par rapport à 0, de la différence moyenne entre les 2 mesures (cet écart
est de +18.9 dans l’exemple ci-dessous)
Faculté de médecine Paris Descartes
Page 75
Enseignement de Lecture Critique d’Article
-
Une corrélation entre la différence des deux mesures et leur moyenne (test r de
Spearman dans l’exemple ci-dessous)
(d’après Little et al. BMJ 2002 ; 325 :254)
Cas où la différence dépend fortement
de la taille des mesures, sans relation de
proportionnalité
Cas d'une différence proportionnelle
(plus importante pour les valeurs hautes)
Cas d'une différence systématique absolue
(observée quelque soit les valeurs de mesures
Faculté de médecine Paris Descartes
Page 76
Enseignement de Lecture Critique d’Article
2.1.7 Rappels des différents biais pouvant affecter une étude d’évaluation
diagnostique
Tableau 13 : Rappel des principaux biais dans une étude diagnostique
Nom du biais
A quoi ça correspond ?
Que faut-il vérifier ?
Biais de spectre
Il s’agit d’un biais de sélection La population de l’étude
doit être proche de la
Les patients étudiés ne
population à laquelle
reflètent pas l’ensemble des
seront appliqués les
patients concernés
résultats de l’étude.
Biais de vérification (workup bias)
Seuls les individus avec un test Tous les individus
doivent avoir les 2 tests :
à l’étude positif ont le test de
le test à l’étude et le test
référence
de référence
Surestime la performance
diagnostique du test
Biais de classement
Le même évaluateur évalue le
résultat des 2 tests. Il est
influencé par le résultat de la
première évaluation
Les résultats du test à
évaluer et du test de
référence doivent être
interprétés
indépendamment l’un de
l’autre
2.1.8 Recommandations pour rapporter un article diagnostique
Checklist STARD pour rapporter les résultats des études de performance
diagnostique (version Janvier 2003)
Faculté de médecine Paris Descartes
Page 77
Enseignement de Lecture Critique d’Article
Section et thème
TITRE/RESUME/
MOTS-CLEFS
INTRODUCTION
METHODES
Participants
Méthodes des
tests
Item
Description
N°
1 Identifier l’article comme une étude sur la justesse d’une méthode
diagnostique (recommander les mots clefs MeSH ‘sensitivity et
specificity’)
2 Qualifier les questions posées ou les buts de l’étude, telles que l’estimation de la justesse d’un test diagnostique ou la comparaison de la
justesse diagnostique de deux (ou plusieurs) tests ou de plusieurs
groupes de sujets
Décrire :
3 la population étudiée : les critères d’inclusion et de non-inclusion, la mise
en œuvre, l’endroit où les données ont été collectées
4 le recrutement des participants : était-il fondé sur des symptômes, des
résultats de tests antérieurs ou sur le fait que le nouveau test ou le test
de référence a été réalisé chez les participants ?
5 l’échantillonnage des participants : s’agissait-il d’une série de cas
consécutifs définie par des critères de sélection issus des items 3 et 4 ?
Si non, spécifier la façon dont les patients ont été sélectionnés.
6 la collecte des données : le recueil des données a-t-il été planifié avant
que le nouveau test et le test de référence aient été réalisés (étude
prospective) ou après (étude rétrospective) ?
7 Le test de référence et son rationnel
8
9
10
11
Méthodes
statistiques
12
13
RESULTATS
Participants
14
15
16
Résultats du test
17
les spécifications techniques du matériel et des méthodes concernées, y
compris comment et quand les mesures ont été réalisées et/ou citer les
références utilisées pour le nouveau test et pour le test de référence
la définition et le rationnel pour les unités, les seuils et/ou les catégories
utilisées pour exprimer les résultats du nouveau test index et du test de
référence
le nombre, le degré d’entraînement et d’expertise des personnes (a)
exécutant et (b) lisant les résultats du nouveau test et du test de référence
oui ou non les évaluateurs du nouveau test, respectivement du test de
référence, ont-ils réalisé en aveugle (masqués) la lecture de l’un, et de
l’autre test ; ont-ils décrit toute autre information clinique dont ils disposaient
les méthodes de calcul ou de comparaisons des mesures de justesse
diagnostique et les méthodes statistiques utilisées pour quantifier
l’incertitude (par ex. intervalles de confiance à 95%)
Méthodes de calcul de la reproductibilité du test, le cas échéant
Notifier :
quand l’étude a été réalisée, incluant les dates de début et de fin du
recrutement
les caractéristiques cliniques et démographiques (par ex. âge, sexe, type
de symptômes, comorbidité, traitement(s) actuel(s), centre(s) de
recrutement)
combien de participants satisfaisant les critères d’inclusion ont, ou n’ont
pas eu le nouveau test et/ou le test de référence; décrire pourquoi les
participants n’ont pas eu l’un ou l’autre test (un diagramme de flux est
fortement recommandé)
l’intervalle de temps entre la réalisation du nouveau test et celle du test
de référence et l’administration éventuelle d’un traitement entre temps
Faculté de médecine Paris Descartes
Page 78
Enseignement de Lecture Critique d’Article
Section et thème
Estimations
DISCUSSION
Item
Description
N°
18 la distribution de la sévérité de la maladie (définir les critères) chez ceux
qui présentent l’affection étudiée ; décrire les autres diagnostics pour les
participants ne présentant pas l’affection étudiée
19 un tableau croisé des résultats du nouveau test (incluant les données
manquantes ou indéterminées) selon les résultats du test de référence;
pour les résultats de variables continues, décrire la distribution des
résultats du nouveau test selon les résultats du test de référence
20 les effets indésirables du nouveau test et du test de référence
21 les estimations de la précision diagnostique et des mesures d’incertitude
statistiques (i.e. intervalles de confiance 95%)
22 comment ont été pris en compte les résultats imprécis, les réponses
manquantes, et les “outliers” du nouveau test
23 les estimations de la variabilité de la précision diagnostique entre sousgroupes de participants, évaluateurs ou centres, le cas échéant
24 les estimations de la reproductibilité, le cas échéant
25 Discuter de l’applicabilité clinique des résultats de l’étude
Traduction de la grille de lecture proposée dans le cadre de l’initiative STARD : Standards for
Reporting of Diagnostic Accuracy. [http://www.consort-statement.org/stardstatement.htm] P.
Landais (2005).
Faculté de médecine Paris Descartes
Page 79
Enseignement de Lecture Critique d’Article
2.2 Evaluation étiologique
AVANT DE COMMENCER
Les études étiologiques évaluent l’association entre l’exposition à un ou plusieurs facteurs
de risque et la survenue d’une maladie.
Les études étiologiques sont des études observationnelles qui font appel à 2 grands-types
d’étude : les études de cohorte et les études cas-témoin.
Les réflexes
• Etudes cas-témoin :
- Sélection des cas
- Choix des témoins
- Recueil des facteurs de risque : biais de mémoire
• Etudes de cohorte
- Suivi dans les études de cohorte prospective
- Données manquantes dans les cohortes rétrospectives
• Prise en compte des facteurs de confusion
Analyse multivariée
• La causalité ne peut pas être affirmée par une seule étude observationnelle
(une différence statistiquement significative n’est pas synonyme de lien
causal)
- Critères de Hill
Faculté de médecine Paris Descartes
Page 80
Enseignement de Lecture Critique d’Article
2.2.1 Formulation de l’objectif
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO où le P représente la population concernée; le E, le ou les
facteurs de risque étudiés; le C est souvent sous-entendu et représente l’absence de facteur
de risque et le O, la maladie.
Par exemple : évaluer si l’hypercholestolémie (E) est un facteur de risque de maladie
d’Alzheimer (O) chez les personnes de plus de 50 ans (P) (sous entendu par rapport à une
absence d’hypercholestérolémie (C).
2.2.2 Type d’étude
2.2.2.1 Choix entre étude cas-témoin et étude de cohorte
Le choix entre cohorte et cas-témoin dépend de la question posée. Chaque type d’étude
présente des avantages et des inconvénients.
Tableau 14 : Avantages et inconvénients des études de cohorte et cas-témoin
COHORTE
Avantages
CAS-TEMOIN
-
Adaptée aux expositions rares
-
Adaptée aux maladies rares
-
Etude possible de plusieurs
-
Etude possible de plusieurs
maladies
-
Estimation possible de
l’incidence de la maladie
-
Calcul du risque relatif
-
La temporalité entre exposition et
maladie peut être étudiée
expositions
-
Rapidité
-
Adaptée aux maladies avec un long
délai d’apparition depuis l’exposition
(délai de latence important)
-
Parfois les seules réalisables
-
Biais de classement (biais de
précisément
-
Risque de biais de sélection
moindre
Inconvénients
-
Perdus de vue
-
Nécessite souvent un échantillon
de grande taille
Faculté de médecine Paris Descartes
mémoire lié au recueil de données
rétrospectif)
Page 81
Enseignement de Lecture Critique d’Article
-
Durée de l’étude longue
-
Souvent impossibilité d’étudier
plusieurs expositions
-
-
Choix des témoins difficile (biais
de sélection potentiel)
-
Peu adapté pour les expositions
rares
Peu adaptée aux maladies rares
-
On ne peut estimer la prévalence de
la maladie*
Mesure
l’association
de
On ne peut pas estimer de RR
RR
OR
OR
(RR impossible)
*car c’est le chercheur qui décide du nombre de cas et de témoins à inclure.
2.2.2.2 Principe des études de cohorte et cas-témoin
Dans les études de cohorte, on recrute des sujets indemnes de la maladie qui sont
exposés à un ou des facteurs de risque et on les suit dans le temps afin d’évaluer s’ils
deviennent malades.
Une étude de cohorte peut être prospective ou rétrospective (on parle également de
cohorte historique). Cette notion fait habituellement référence à la temporalité du recueil de
données. Dans une cohorte rétrospective, la cohorte est reconstituée rétrospectivement à
partir de données déjà recueillies (par exemple dans les dossiers médicaux). Ce schéma est
intéressant pour les maladies ayant un long délai de latence, comme les cancers ou la
maladie d’Alzheimer. Cependant, il faut que la qualité des données recueillies soit bonne
sinon il y a aura un nombre important de données manquantes.
Dans les études cas-témoin, on recrute des malades et des témoins indemnes de la
maladie et on recherche dans le passé des sujets s’ils ont été exposés à certains facteurs
de risque. Une étude cas-témoin est rétrospective.
Faculté de médecine Paris Descartes
Page 82
Enseignement de Lecture Critique d’Article
Figure 14 : Différences entre études de cohorte prospective et rétrospective et études castémoin
Exemple de cohorte rétrospective:
Dans une étude évaluant l’association entre le type de ventilation (ventilation non invasive
ou ventilation mécanique) et la mortalité chez des patients hospitalisés en réanimation pour
une décompensation de BPCO, les auteurs ont cherché rétrospectivement dans les
dossiers tous les patients hospitalisés pour une décompensation de BPCO ayant nécessité
une ventilation non invasive ou mécanique. Ils ont recueilli leurs données et ont évalué
ensuite leur devenir (décès ou non).
Il existe un cas particulier : l’étude cas-témoin niché dans une cohorte : les cas et les
témoins sont issus d’une cohorte existante. Le principal avantage est que les données sont
déjà disponibles et qu’elles ont été recueillies de façon prospective. Il est cependant fréquent
Faculté de médecine Paris Descartes
Page 83
Enseignement de Lecture Critique d’Article
d’avoir besoin d’informations complémentaires, non renseignées dans la cohorte initiale. On
procède alors à un recueil rétrospectif de ces données, en contactant les patients et/ou en
retournant au dossier médical.
2.2.3 Particularités des études de cohorte
2.2.3.1 Choix de la population
Il existe deux possibilités pour le choix de la population:
• Les cohortes en population : L’échantillon peut être plus ou moins représentatif de la
population cible. Pour avoir un échantillon représentatif, l’idéal est de procéder par
sondage à partir d’une population source correspondant à la population cible.
• Les cohortes exposés-non-exposés où l’on recrute en fait deux cohortes : une
cohorte d’individus exposés à un facteur de risque et une cohorte d’individus nonexposés au facteur de risque. Ces deux cohortes vont être suivies dans le temps et
doivent avoir un suivi similaire. Ce type d’étude ne permet pas d’évaluer
simultanément plusieurs facteurs de risque. Ce type d’étude est à privilégier quand
l’exposition est rare et l’évènement relativement fréquent. Les cohortes exposésnon-exposés sont adaptées à l’étude de facteurs de risque professionnels (par
exemple, l’exposition à l’amiante).
2.2.3.2 Recueil des facteurs de risque
Dans une étude de cohorte prospective, le recueil des facteurs de risque se fait au moment
de l’entrée dans l’étude et éventuellement pendant le suivi. Si l’exposition au facteur de
risque n’est recueillie qu’au début, cela peut poser problème car celle-ci peut varier au cours
du temps (par exemple si le facteur de risque est la consommation de tabac).
Dans une étude de cohorte rétrospective, les données concernant l’exposition à des facteurs
de risque ont déjà été collectées (dans les dossiers médicaux ou dans des registres). Dans
ce cas, il est très important de vérifier la qualité du recueil des données. S’il y a des données
manquantes ou si un facteur de confusion important n’a pas été collecté, cela va poser
problème.
Faculté de médecine Paris Descartes
Page 84
Enseignement de Lecture Critique d’Article
2.2.3.3 Recueil de la maladie (critère de jugement)
Le plus souvent, il s’agira d’un critère dont la mesure peut être subjective (cancer, infarctus
du myocarde,…).
Il y a donc un risque :
-
De biais de classement (différentiel) si l’évaluation de la maladie n’est pas faite en
aveugle de l’exposition au facteur de risque
-
De variabilité et d’erreur de mesure entre les évaluateurs (on parle d’erreur non
différentielle). Pour limiter cela et améliorer la reproductibilité, il faut standardiser la
définition de la maladie, former les évaluateurs, faire une évaluation en double voire
centralisée avec un comité indépendant.
2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte prospective
Quel que soit le type d’étude de cohorte, le suivi des sujets exposés doit être identique
au suivi des sujets non-exposés.
Dans les études de cohorte prospective, il faut définir une durée de suivi suffisante pour
pouvoir observer la maladie.
Cette durée peut être longue et pose le problème des perdus de vue c'est-à-dire des
patients pour lesquels il n’y a pas de données concernant leur suivi. Dans les
analyses, il faudra vérifier les caractéristiques des patients perdus de vue et la durée
médiane de suivi rapportée, et apprécier ainsi l’influence potentielle de la proportion
de perdus de vue sur les critères de jugement.
o Si les perdus de vue se répartissent également dans les groupes en nombre
et caractéristiques et ne concernent pas une catégorie particulière de
patients, la seule conséquence sera une perte de puissance. C’est rare car
le plus souvent si on est perdu de vue ce n’est pas pour rien… (rupture de
soins et/ou mauvaise observance, etc.)
o S’il y a plus de perdus de vue dans un groupe que dans l’autre, ou si les sujets
perdus de vue ont des caractéristiques spécifiques, on risque, outre la perte
de puissance, un biais d’attrition.
Faculté de médecine Paris Descartes
Page 85
Enseignement de Lecture Critique d’Article
o L’influence de la proportion de perdus de vue dépend de la fréquence de
survenue de l’événement étudié. Si le nombre de perdus de vue dépasse
le nombre d’évènements, cela pose problème.
2.2.4 Particularités des études cas-témoin
2.2.4.1 Population d’étude
La sélection des cas et des témoins doit être indépendante des facteurs de risque
étudiés. Le recrutement des cas et des témoins doit se faire sans connaître leurs
éventuelles expositions à des facteurs de risque
•
Sélection des cas
Les cas doivent être représentatifs de la population de malades.
Il faut distinguer les cas incidents et les cas prévalents.
Les cas incidents sont inclus dans l’étude quand ils deviennent malades. Dans ce cas de
figure, on ne recrute que les nouveaux malades..
Les cas prévalents sont déjà malades avant d’être inclus dans l’étude. Dans ce cas de
figure, on recrute tous les malades à un moment donné c'est-à-dire ceux qui ont survécu
jusque là. Cela conduit à un biais de sélection particulier : le biais de survie sélective.
Il faut donc privilégier le recrutement de cas incidents.
•
Choix des témoins
Le choix des témoins doit être indépendant de l’exposition.
Idéalement, le groupe de témoins doit être représentatif de l’ensemble des sujets nonmalades de la population source d’où est issu le groupe de malades étudiés.
Il est difficile de choisir la population de témoins, il existe plusieurs possibilités : témoins
issus de la population, témoins hospitalisés, témoins familiaux. Chaque choix présente des
avantages et des inconvénients.
Faculté de médecine Paris Descartes
Page 86
Enseignement de Lecture Critique d’Article
Tableau 15: Avantages et inconvénients des différents types de témoins
Témoins
Témoins
Témoins famille
hospitalisés
population
Accès
Facile
Difficile et coûteux
Facile
Motivation
Forte ( malades )
Faible ( bonne santé)
Forte
Taux de
Élevé
Faible
Elevé
Important
Limité
Important
réponse
Biais de
sélection
Exemple :
Le choix de témoins hospitalisés dans une étude cas-témoin peut être une source de biais
de sélection : si on veut étudier le lien entre tabagisme et risque d’infarctus du myocarde et
que pour cela on compare des patients hospitalisés en cardiologie avec des patients de
cancérologie, on risque de ne pas voir d’association car de nombreux patients de
cancérologie sont également fumeurs et à haut risque d’infarctus.
2.2.4.2 Recueil des facteurs de risque
Le recueil des facteurs de risque est rétrospectif et soumis à un biais de classement
particulier le biais de mémoire. Ce biais est différentiel c'est-à-dire que les cas vont avoir
tendance à exagérer leur exposition à un facteur de risque et les témoins à la minimiser.
Faculté de médecine Paris Descartes
Page 87
Enseignement de Lecture Critique d’Article
Exemple :
Par exemple, si on étudie le lien entre l’exposition à un médicament A et le risque de fausse
couche spontanée (FCS), les femmes ayant fait une FCS se souviendront mieux avoir pris le
médicament A que les femmes n’ayant pas fait de FCS, car il s’agit d’un événement
traumatisant.
2.2.5 Prise en compte des facteurs de confusion potentiels
Afin d’isoler le rôle intrinsèque du facteur étudié sur la survenue de la maladie, il faut
mesurer l’association qui existe entre ce facteur et le critère de jugement, indépendamment
des autres facteurs potentiellement impliqués. Il faut donc prendre en compte les facteurs de
confusion potentiels.
• Prise en compte a priori : l’appariement
Il s’agit de sélectionner des paires de sujets qui sont comparables sur une ou deux
caractéristiques. Cela se fait fréquemment dans les études cas-témoin dans lesquelles les
cas et les témoins sont appariés sur l’âge et le sexe. Cela signifie que chaque fois que l’on
va inclure un cas on va inclure un témoin de même sexe et de même âge (appariement sur
le sexe et l’âge). Le nombre de facteurs d’appariement est limité.
• Prise en compte a posteriori : l’ajustement
Il s’agit de réaliser un modèle de régression logistique multivarié prenant en compte les
facteurs de confusion. On estimera alors un OR ajusté sur les facteurs de confusion et
autres facteurs de risque.
Faculté de médecine Paris Descartes
Page 88
Enseignement de Lecture Critique d’Article
2.2.6 Interprétation des résultats
Les résultats principaux sont les résultats de l’analyse multivariée car ils prennent en
compte les facteurs de confusion.
Exemple :
Figure 15 : Interprétation du résultat d’une étude étiologique
Dans cet exemple :
•
Il n’y a pas d’association statistiquement significative entre le facteur 1 et la maladie.
L’OR est à 1.80 avec un IC à 95% de 0.90 à 3.60 qui contient la valeur 1 (p>0.05).
•
Il y a une association statistiquement significative entre le facteur 2 et la maladie car
l’IC à 95% ne contient pas la valeur 1 (1.80-5.90) et il s’agit d’un facteur de risque car
l’OR est plus grand que un (3.30). Si la prévalence de la maladie est faible, on peut
dire que les individus exposés au facteur 2 ont 3.3 fois plus de risque de développer
la maladie que les individus non exposés.
•
Il y a une association statistiquement significative entre le facteur 3 et la maladie car
l’IC à 95% ne contient pas la valeur 1 (0.20-0.60) et il s’agit d’un facteur protecteur
car l’OR est plus petit que 1 (0.30).
Faculté de médecine Paris Descartes
Page 89
Enseignement de Lecture Critique d’Article
2.2.7 Causalité
Il faut bien différencier association statistiquement significative et lien causal. Ce n’est pas
parce qu’on a montré une association statistiquement significative entre un facteur et un
critère de jugement qu’il y a un lien causal !
La seule manière d’affirmer un lien de causalité, c’est de comparer des groupes qui ne
diffèrent que par l’exposition ou non à l’élément soumis à évaluation, c’est-à-dire
comparables sur toutes les autres caractéristiques. Ainsi, toute différence observée
entre les groupes sera imputable à l’élément soumis à évaluation. Seul un essai contrôlé
randomisé, s’il est bien conduit, permet d’affirmer un lien causal car la randomisation
permet d’obtenir des groupes comparables pour tous les facteurs de confusion
connus ou inconnus.
Une seule étude observationnelle ne permet pas de conclure à un lien de causalité.
Certains éléments s’ils sont présents sont cependant en faveur d’un lien causal. Ces
éléments ont été décrits par Sir Bradford Hill
Critères de Hill
• Critères internes à l’étude
o Existence d’une association statistique entre l’exposition et la maladie
o Forte intensité de l’association
o Existence d’une relation de type “dose-effet” entre l’exposition et la maladie
o Spécificité de la relation entre l’exposition et la maladie
o Minimisation des biais de sélection et de classement. Prise en compte
correcte de l’ensemble des facteurs de confusion connus.
o Absence d’ambiguïté temporelle (l’exposition doit précéder la maladie)
• Critères externes à l’étude
o Concordance entre les résultats d’études
Faculté de médecine Paris Descartes
Page 90
Enseignement de Lecture Critique d’Article
o Plausibilité biologique (au mieux, explication physiopathologique)
o Concordance avec les expérimentations menées in vitro ou chez l’animal
o Gradients géographiques parallèles de l’exposition et de la maladie
o Diminution de l’incidence de la maladie lorsque l’exposition est supprimée ou
réduite
Remarque :
Le critère « spécificité de la relation» est de moins en moins pertinent car on sait
aujourd’hui qu’un effet résulte souvent de plusieurs causes intriquées (composantes
causales) : facteurs environnementaux, comportementaux, génétiques, etc.
2.2.8 Rappels des biais dans les études étiologiques
Tableau 16: Principaux biais dans une étude étiologique
Nom du biais
A quoi ça correspond ?
Comment limiter le risque de
biais ?
Biais de sélection
Etudes de cohorte :
Etudes de cohorte :
Sélection d’une population non
représentative de la population
d’intérêt
Sélection d’une population
représentative de la population
d’intérêt
Etudes cas-témoin :
Etudes cas-témoin :
Mauvaise définition des cas
Définition standardisée des cas
Sélection des témoins non
indépendante de l’exposition
Sélection des témoins
indépendante de l’exposition
Il s’agit d’une forme de biais de
sélection qu’on retrouve dans les
études cas témoins
Sélection de cas incidents
Biais de survie sélective
Sélection de cas prévalents
Biais de classement
Etudes de cohorte :
Etudes de cohorte :
L’évaluateur peut être influencé
s’il connaît le statut exposé/non
exposé du patient vis à vis du
Evaluation du critère de jugement
en aveugle du statut exposé ou
non exposé
Faculté de médecine Paris Descartes
Page 91
Enseignement de Lecture Critique d’Article
facteur de risque
Biais de mémoire
Il s’agit d’une forme de biais de
classement qu’on retrouve dans
les études cas témoins.
Les cas ont tendance à majorer
leur exposition à des facteurs de
risque et les témoins à les
minimiser
Les sujets sont en aveugle des
hypothèses
Evaluation d’après des données
recueillies de manière objective
Biais de confusion
Liés à des facteurs de confusion
dans la relation facteur de risquemaladie
Analyse multivariée avec
ajustement et éventuellement
appariement sur les facteurs de
confusion
Biais d’attrition
Etudes de cohorte prospective :
Limiter au maximum les perdus
de vue
liés aux perdus de vue et à leur
exclusion de l’analyse
Imputer les données manquantes
Remarque :
La définition des groupes de comparaison peut être source de biais différents selon
les études. Dans une étude cas témoins, le mauvais choix des cas ou des témoins peut être
source de biais de sélection. Dans une étude exposés/non-exposés (où l’on recrute
séparément les sujets exposés et non-exposés), le mauvais choix des exposés ou des nonexposés peut de la même façon être source de biais de sélection. En revanche, dans le cas
(fréquent) d’une étude de cohorte dans laquelle on va mesurer l’exposition et définir ainsi les
groupes de comparaison, une erreur de mesure de l’exposition sera une source potentielle
de biais de…classement !
Faculté de médecine Paris Descartes
Page 92
Enseignement de Lecture Critique d’Article
2.2.9 Recommandations pour rapporter une étude étiologique
Checklist STROBE des informations à inclure pour rendre compte des résultats
d’études observationnelles (trad. A. Rachas, juin 2013)
Section
Titre et résumé
Item
N°
1
Description
(a) Indiquer le type d’étude avec des termes courants, dans le titre ou le
résumé
(b) Fournir un résumé informatif et équilibré de ce qui a été fait et ce qui a
été trouvé
Introduction
Contexte/rationnel
2
Expliquer le contexte scientifique et le rationnel de l’investigation
rapportée
Objectifs
3
Présenter les objectifs spécifiques et les hypothèses de travail
Méthodes
Type d’étude
4
Présenter précocement les éléments-clefs du type d’étude
Contexte d’étude
5
Décrire le contexte, les lieux et dates d’intérêt, notamment les périodes de
recrutement, d’exposition, de suivi et de recueil de données
Participants
6
(a) Etude de cohorte — présenter les critères d’éligibilité et les sources et
méthodes de sélection des sujets. Décrire la méthode de suivi des sujets.
Etude cas-témoin — présenter les critères d’éligibilité et les sources et
méthodes de diagnostic des cas et de sélection des témoins. Expliquer le
rationnel du choix des cas et des témoins
Etude transversale — présenter les critères d’éligibilité et les sources et
méthodes de sélection des sujets
(b) Etude de cohorte — en cas d’appariement, donner les critères
d’appariement et le nombre d’exposés et de non-exposés
Etude cas-témoin — en cas d’appariement, donner les critères
d’appariement et le nombre de témoins par cas
Variables
7
Définir clairement tous les critères de jugement, expositions, facteurs
prédictifs, facteurs de confusion potentiels et facteurs d’interaction.
Préciser les critères diagnostiques, le cas échéant.
Source de
données / mesure
8*
Pour chaque variable d’intérêt, préciser les sources de données et les
détails sur les méthodes d’évaluation (mesure). Décrire la comparabilité
des méthodes d’évaluation s’il y a plus d’un groupe.
Biais
9
Décrire toute mesure prise pour éviter les sources de biais
Taille de
l’échantillon
10
Préciser la taille de l’échantillon obtenu
Faculté de médecine Paris Descartes
Page 93
Enseignement de Lecture Critique d’Article
Section
Variables
quantitatives
Méthodes
statistiques
Item
N°
11
12
Description
Expliquer comment les variables quantitatives ont été traitées dans les
analyses. Le cas échéant, décrire quelles catégorisations ont été choisies
et pourquoi
(a) Décrire toutes les méthodes statistiques, notamment celles utilisées
pour prendre en compte la confusion
(b) Décrire toute méthode utilisée pour étudier des sous-groupes et des
interactions
(c) Expliquer comment les données manquantes ont été prises en compte
(d) Etude de cohorte — si approprié, expliquer comment les perdus de
vue ont été pris en compte dans l’analyse
Etude cas-témoin — si approprié, expliquer comment l’appariement des
cas et des témoins a été pris en compte dans l’analyse
Etude transversale — si approprié, décrire les méthodes d’analyse
prenant en compte la stratégie d’échantillonnage
(e) Décrire toute analyse de sensibilité
Résultats
Participants
13*
(a) Préciser le nombre de sujets à chaque étape de l’étude — par
exemple, le nombre de sujets potentiellement éligibles, dont l’éligibilité a
été évaluée, dont l’éligibilité a été confirmée, inclus dans l’étude, ayant eu
un suivi complet, et analysés
(b) Préciser les raisons de non-participation à chaque étape
(c) L’utilisation d’un flow chart devrait être considérée
Données
descriptives
14*
(a) Donner les caractéristiques des sujets (démographiques, cliniques,
sociales…) et des informations sur les expositions et les facteurs de
confusion potentiels
(b) Pour chaque variable d’intérêt, indiquer le nombre de sujets dont la
donnée est manquante
(c) Etude de cohorte — décrire la durée de suivi (par exemple durée
moyenne et totale)
Critères de
jugement
15*
Etude de cohorte—Préciser le nombre d’événements correspondant au
critère de jugement, ou un autre indicateur équivalent
Etude cas-témoin — Préciser les effectifs de sujets dans chaque catégorie
d’exposition, ou un autre indicateur de mesure d’exposition
Etude transversale — Préciser le nombre d’événements correspondant au
critère de jugement, ou un autre indicateur équivalent
Résultats
principaux
16
(a) Donner les estimations non ajustées, et le cas échéant les estimations
ajustées sur les facteurs de confusion, et leur précision (par exemple
intervalle de confiance à 95%). Exposer clairement quels facteurs de
Faculté de médecine Paris Descartes
Page 94
Enseignement de Lecture Critique d’Article
Section
Item
N°
Description
confusion ont été pris en compte et pourquoi
(b) Préciser les limites des catégories lorsque les variables continues ont
été catégorisées
(c) Le cas échéant, on pourra traduire les estimations de risque relatif en
risque absolu sur une période de temps pertinente
Autres analyses
17
Décrire les résultats des autres analyses effectuées — par exemple
analyses en sous-groupes, recherche d’interactions, analyses de
sensibilité
Discussion
Résultats-clés
18
Résumer les résultats-clés en regard des objectifs de l’étude
Limites
19
Discuter des limites de l’étude, en tenant compte des sources de biais
potentiels et de l’imprécision des estimations. Discuter le sens et l’intensité
de tout biais potentiel.
Interprétation
20
Donner une interprétation globale des résultats, en restant prudent, en
considérant les objectifs, les limites, la multiplicité des analyses, les
résultats d’études similaires, et d’autres éléments pertinents
Généralisabilité
21
Discuter la généralisabilité (validité externe) des résultats de l’étude
Autres informations
Financement
22
Préciser les sources de financement et le rôle des financeurs dans la
présente étude et, le cas échéant, dans l’étude originale sur laquelle le
présent article est basé
*Donner les informations séparément pour les cas et les témoins dans les études cas-témoin et, le cas
échéant, pour les exposés et non-exposés dans les études de cohorte et les études transversales.
Note : Un article d’Explication et d’Elaboration discute chaque item de la checklist et fournit le contexte méthodologique et des
exemples publiés de rapports transparents. La checklist du STROBE sera utilisée au mieux en conjonction avec cet article
(disponible gratuitement sur les sites de PLoS Medicine : http://www.plosmedicine.org/, Annals of Internal Medicine :
http://www.annals.org/, et Epidemiology : http://www.epidem.com/). Des informations sur l’initiative STROBE sont disponibles
sur le site www.strobe-statement.org.
Faculté de médecine Paris Descartes
Page 95
Enseignement de Lecture Critique d’Article
2.3 Evaluation de facteurs pronostiques
AVANT DE COMMENCER
Dans ce type d’article, l’objectif est de montrer qu’un facteur donné prédit le devenir des
patients, c’est-à-dire qu’il est associé à un risque plus élevé de présenter le critère de
jugement (qui peut être « positif », comme la guérison, ou « négatif », comme le décès).
Mais contrairement aux études étiologiques, on ne cherche pas à montrer un lien causal. Le
but est d’identifier des facteurs associés à un bon ou à un mauvais pronostic afin de pouvoir
informer le patient et d’orienter la prise en charge en fonction de ce facteur (par exemple,
rapprocher la surveillance ou les consultations de suivi si le pronostic est mauvais).
Les réflexes :
• Suivi (durée et perdus de vue)
• Evaluation du critère de jugement
• Prise en compte des facteurs de confusion
Faculté de médecine Paris Descartes
Analyse multivariée
Page 96
Enseignement de Lecture Critique d’Article
2.3.1 Formulation de l’objectif
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO où le P représente la population concernée; le E, le facteur
pronostique évalué; le C est sous-entendu, il s’agit de l’absence du facteur pronostique et le
O, le critère de jugement.
Par exemple, évaluer si un taux faible d’Albumine plasmatique (reflet d’un état de dénutrition)
est un facteur pronostique, prédictif de décès chez des patients ayant un cancer à un stade
avancé.
2.3.2 Distinction facteur de risque/ facteur pronostique
Figure 16 : Différences entre facteur de risque et facteur pronostique
Faculté de médecine Paris Descartes
Page 97
Enseignement de Lecture Critique d’Article
2.3.3 Type d’étude utilisé
Les études évaluant des facteurs pronostiques sont principalement des études de cohorte
prospective ou rétrospective.
Les notions précédemment vues dans les études de cohorte (dans la partie étiologie)
s’appliquent ici également.
Il faudra accorder une attention particulière aux points suivants :
•
Biais de sélection : il faut être sûr que les patients que l’on va inclure dans
l’étude ont bien la pathologie d’intérêt et sont à un stade similaire de l’histoire de
la maladie (par exemple, patients ayant survécu à un infarctus du myocarde,
patientes ayant un cancer du sein nouvellement diagnostiqué). Il faut également
discuter du stade de sévérité qui nous intéresse.
•
Evaluation du critère de jugement : Si le critère de jugement est le décès ou la
survie, il s’agit d’un critère de jugement dont l’évaluation est objective. C'est-àdire que l’évaluation est incontestable et ne peut pas être sujet à des
interprétations différentes selon la personne qui l’évalue. Dans ce cas, le risque
de biais de classement est faible. Si le critère de jugement est un critère dont
l’évaluation peut être subjective (par exemple la rechute tumorale ou la récidive
d’événement cardiovasculaire), l’évaluation du critère de jugement doit se faire
en aveugle de l’exposition au facteur pronostique afin de limiter le biais de
classement. Afin de limiter la variabilité liée à l’évaluation subjective d’un critère
de jugement, son mode d’évaluation doit être défini a priori et standardisé. Pour
améliorer la reproductibilité, il est souhaitable de faire une évaluation en double
(par 2 personnes de manière indépendante) voire centralisée avec un comité
indépendant (appelé comité d’adjudication ou comité d’évènements cliniques).
Pour plus d’informations sur les critères de jugement, reportez vous au point
2.4.6.3)
•
Durée du suivi. Un facteur prédictif de la survie à 1 an n’est pas forcément
prédictif de la survie à 3 ans.
•
Perdus de vue (biais d’attrition)
•
Prise en compte des facteurs de confusion
Faculté de médecine Paris Descartes
Page 98
Enseignement de Lecture Critique d’Article
•
Interprétation des résultats : interprétation des résultats de l’analyse
multivariée par un modèle de régression logistique si le critère de jugement est
une variable binaire (par exemple décès à 3 mois) ou par un modèle de Cox si le
critère de jugement est une variable censurée (délai avant décès).
2.3.4 Les biais dans les études pronostiques
Tableau 17 : Principaux biais dans une étude pronostique
Nom du biais
A quoi ça correspond ?
Comment limiter le risque de
biais ?
Biais de sélection
Sélection d’une population non
représentative de la population
d’intérêt
Sélection d’une population
représentative de la population
d’intérêt
Biais de classement
L’évaluateur peut être influencé
s’il connaît le statut exposé non
exposé du patient vis à vis du
facteur pronostique
Evaluation du critère de jugement
en aveugle du statut exposé ou
non exposé
Biais de confusion
Liés à des facteurs de confusion
dans la relation facteur
pronostique-maladie
Analyse multivariée avec
ajustement et éventuellement
appariement sur les facteurs de
confusion
Biais d’attrition
Liés aux perdus de vue et à leur
exclusion de l’analyse
Limiter au maximum les perdus
de vue
Imputer les données manquantes
Faculté de médecine Paris Descartes
Page 99
Enseignement de Lecture Critique d’Article
2.4 Evaluation d’une intervention thérapeutique
AVANT DE COMMENCER
Bien que la plupart des études interventionnelles soient des essais thérapeutiques, leur
cadre est bien plus large. L’intervention peut être un nouveau traitement, l’utilisation d’un
nouveau test diagnostique, une stratégie de prise en charge, une campagne de
communication…Ce cours aurait pu s’intituler « essai randomisé », car toute étude
interventionnelle devrait être randomisée.
Les réflexes :
• Comparabilité initiale = qualité de la randomisation
• Maintien de la comparabilité des groupes randomisés =
o double aveugle
o analyse en intention de traiter
•
Critère de jugement principal (important pour le patient, objectif ?)
•
Différence cliniquement pertinente (taille d’effet)
•
Vérification de la cohérence : objectif principal-critère de jugement principalrésultats principaux-conclusion sur le critère de jugement principal
Faculté de médecine Paris Descartes
Page 100
Enseignement de Lecture Critique d’Article
2.4.1 Formulation de l’objectif
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO où le P représente la population concernée; le E, l’intervention
thérapeutique évaluée; le C est l’intervention dans le groupe contrôle (le comparateur) et le
O, le critère de jugement.
Par exemple, évaluer l’efficacité sur la mortalité à 30 jours (O) d’un traitement par
hydrocortisone (I) par rapport à un placebo (C) chez des patients en choc septique (P).
La question posée doit être originale au regard de la littérature existante sur le sujet. Un
essai devrait être réalisé s’il s’agit d’un nouveau traitement dans la pathologie étudiée, d’un
traitement qui n’a pas démontré son efficacité ou d’un traitement pour lequel les résultats des
études antérieures sont discordants.
2.4.2 Type d’étude
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention car il
permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus
élevé.
Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’autorisation
de mise sur le marché.
Figure 17 : Rappel des différentes phases d’un essai portant sur le médicament (tiré de
l’abrégé Masson Santé Publique)
Faculté de médecine Paris Descartes
Page 101
Enseignement de Lecture Critique d’Article
Le terme « contrôlé » signifie qu’il y a un groupe contrôle (recevant par exemple un
placebo) et que l’on contrôle la comparabilité des groupes tout au long de l’étude.
Le plus souvent, l’essai contrôlé randomisé est un essai à 2 bras parallèles ce qui signifie
que les patients reçoivent un des deux traitements à l’essai selon le résultat de la
randomisation) selon le schéma suivant :
Figure 18 : Schéma de l’essai à 2 bras parallèles
Le plus souvent, également, il s’agit d’un essai dit de supériorité dont l’objectif est de
montrer que le nouveau traitement est supérieur à un placebo ou à un traitement de
référence.
Afin de limiter au maximum le risque de biais, l’essai devrait être également en double
aveugle avec analyse en intention de traiter comme nous allons le voir un peu plus loin.
Enfin l’essai peut être monocentrique s’il est réalisé dans un seul centre ou multicentrique
s’il est réalisé dans plusieurs centres, cela a des conséquences sur la validité externe de
l’étude (les résultats d’un essai monocentrique sont moins transposables à la pratique qu’un
essai multicentrique, la validité externe sera donc moindre dans un essai monocentrique).
2.4.3 Choix du comparateur
Le choix du comparateur est un élément important à évaluer. Ce choix dépend de la
pathologie étudiée. S’il existe un traitement ayant fait la preuve de son efficacité dans cette
pathologie, ce traitement devrait être le comparateur. Si aucun traitement n’a fait la preuve
de son efficacité dans la pathologie étudiée, le groupe contrôle devrait recevoir un placebo.
Malheureusement, même dans les pathologies pour lesquelles il existe des traitements
Faculté de médecine Paris Descartes
Page 102
Enseignement de Lecture Critique d’Article
efficaces, les essais sont fréquemment réalisés contre placebo. Ces essais ont un intérêt
limité car ils ne permettent pas de savoir si le nouveau traitement a un intérêt par rapport à
celui qui existe déjà. Ils ne permettent pas de répondre aux questions pragmatiques que se
posent les médecins c'est-à-dire dans cette pathologie, quel est le meilleur traitement à
donner à mon patient ?
Figure 19 : Choix du comparateur
2.4.4 Randomisation
La randomisation est l’allocation aléatoire d’une intervention. La randomisation, si elle est
bien faite, assure la comparabilité initiale des groupes pour tous les facteurs
pronostiques connus et inconnus, afin que toute différence entre les 2 groupes ne puisse
être attribuée qu’au traitement reçu.
La qualité de la randomisation est un élément clef pour évaluer la validité interne d’un
essai randomisé. Elle repose sur 3 points :
1) La génération de la séquence de randomisation
2) L’assignation secrète (la clause d’ignorance)
3) La vérification de la comparabilité initiale des groupes
Si l’un de ces 3 éléments pose problème, il y a un risque de biais de sélection.
Faculté de médecine Paris Descartes
Page 103
Enseignement de Lecture Critique d’Article
2.4.4.1 Génération de la séquence de randomisation
La méthode utilisée pour générer la liste de randomisation doit permettre une allocation
« totalement aléatoire ».
• Méthodes adéquates = « totalement aléatoires »
o table de nombres aléatoires
o séquence informatique
• Méthodes inadéquates = non aléatoires
o randomisation alternée (ABABAB…)
o basées sur une caractéristique du malade (initiale du prénom, date de
naissance, etc.)
o basées sur le jour d’inclusion
o toute autre méthode comportant une attitude décisionnelle systématique
Le ratio d’allocation désigne le ratio groupe A/groupe B. Le plus souvent, le ratio est 1/1
c'est-à-dire qu’autant de patients sont randomisés dans le groupe expérimental et dans le
groupe contrôle ce qui respecte le principe d’équipoise (on peut aussi parler de clause
d’ambivalence). Ce principe est lié au fait qu’on réalise l’essai car on ne sait pas quel est le
traitement le plus efficace, sinon, ce ne serait pas éthique.
Dans certains essais, le ratio est 2/1 c'est-à-dire qu’on va randomiser 2 fois plus de sujets
traités par le nouveau médicament que de sujets traités par placebo. On parle alors de
randomisation déséquilibrée. L’argument pour ce type d’essai est d’augmenter le nombre de
sujets traités par le traitement expérimental afin d’avoir davantage de données concernant la
tolérance de ce traitement. Une autre raison moins fréquemment avouée dans les essais
contre placebo est que cela va améliorer le recrutement dans l’essai car les patients ont plus
de chances de recevoir le traitement expérimental que le placebo.
Lorsque la randomisation est basée sur une simple séquence de nombres, on parle de
randomisation simple.
Des techniques plus complexes peuvent cependant être utilisées pour éviter des
déséquilibres liés au hasard en cas de faible effectif (fluctuations d’échantillonnage):
Faculté de médecine Paris Descartes
Page 104
Enseignement de Lecture Critique d’Article
• La randomisation par blocs consiste à s’assurer qu’à tout moment de l’essai, le
même nombre de patients soit alloué dans chaque groupe.
Par exemple, dans un essai comportant deux bras, une randomisation par blocs
avec des blocs de taille 4 signifie que tous les 4 patients, 2 seront randomisés dans
le groupe expérimental (A) et 2 dans le groupe contrôle (B).
Exemple de randomisation par blocs de taille 4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A
A
B
B
A
B
A
B
B
B
A
A
B
A
B
A
Remarque :
La randomisation par blocs est une méthode de randomisation adéquate adaptée
notamment en cas de faible effectif. Il faut cependant faire attention à ne pas communiquer
la taille des blocs aux investigateurs qui recrutent les patients ou alors à faire des blocs de
taille aléatoire (qui change pendant la durée de l’étude). Autrement, l’investigateur, s’il
connait la taille des blocs, pourrait déduire quel va être le groupe dans lequel le patient
suivant sera randomisé (par exemple, si l’investigateur a randomisé les 2 premiers patients
dans le groupe A, il peut en déduire que les 2 prochains patients seront randomisés dans le
groupe B s’il sait que la taille des blocs est de 4). Cela pourrait entraîner une violation de la
clause d’ignorance (voir plus loin).
Faculté de médecine Paris Descartes
Page 105
Enseignement de Lecture Critique d’Article
• La stratification de la randomisation est également utilisée pour limiter le risque de
déséquilibre quand il y a des facteurs pronostiques importants.
Le principe est de s’assurer qu’un nombre égal de patients ayant certaines
caractéristiques (par exemple une tumeur de stade avancé) soit randomisé dans
chaque groupe. La randomisation stratifiée consiste à faire une liste de
randomisation par strate. Par exemple si la randomisation est stratifiée sur le sexe et
le stade de la maladie (précoce et avancé), il y a aura 4 listes de randomisation : 1
pour les femmes en stade précoce, 1 pour les femmes en stade avancé, 1 pour les
hommes en stade précoce, 1 pour les hommes en stade avancé.
Remarque :
Il est fréquent dans les essais multicentriques de stratifier sur le centre
•
La minimisation est parfois utilisée dans les essais incluant un nombre limité de
patients lorsqu’il existe un nombre important de facteurs pronostiques
importants. Cette technique est fréquemment utilisée dans les essais en
cancérologie. Il s’agit d’une méthode impliquant un algorithme permettant de
limiter les déséquilibres sur les facteurs pronostiques importants. Lors de
l’inclusion
d’un
nouveau
patient,
l’investigateur
enregistre
les
facteurs
pronostiques du patient sur un site internet sécurisé, l’algorithme détermine alors
le groupe du patient en fonction des caractéristiques renseignées afin de limiter
les déséquilibres entre les groupes.
2.4.4.2 Clause d’ignorance
Synonyme : non divulgation de l’allocation, masquage de l’allocation, allocation
concealment, assignation secrète
Le fait de pouvoir prévoir le groupe de randomisation du prochain patient risque d’influencer
la décision d’inclure le patient dans l’essai (par exemple, l’investigateur peut décider de ne
pas proposer au patient de participer à l’essai si le patient est sévère et qu’il sait que le
prochain patient de l’étude sera randomisé dans le groupe expérimental.
Faculté de médecine Paris Descartes
Page 106
Enseignement de Lecture Critique d’Article
La clause d’ignorance est respectée lorsque les personnes qui recrutent les patients dans un
essai contrôlé randomisé ne peuvent pas savoir si le prochain patient sera inclus dans le
groupe « intervention » ou le groupe « contrôle » au moment où celui-ci entre dans l’essai.
Figure 20 : Chronologie de l’inclusion d’un patient dans l’essai pour respecter la clause
d’ignorance
Les méthodes suivantes permettent de s’assurer que la clause d’ignorance est
respectée :
• Randomisation centralisée (randomisation par téléphone, fax ou via un site internet)
• Enveloppes contenant l’information sur le groupe de randomisation opaques et
scellées
• Médicaments préparés par la pharmacie dans des containers identiques (pour les
essais médicamenteux)
D’autres méthodes sont franchement inadéquates car prévisibles et ne permettent pas
de respecter la clause d’ignorance :
• Randomisation alternée (ABABABAB)
Faculté de médecine Paris Descartes
Page 107
Enseignement de Lecture Critique d’Article
• Utilisation d’une caractéristique du patient (par exemple l’année de naissance :
donner le traitement A aux sujets nés les années paires et le traitement B aux sujets
nés les années impaires)
• Enveloppes contenant l’information sur le groupe de randomisation non opaques ou
non scellées
2.4.4.3 Vérification de la comparabilité initiale des groupes
Le tableau 1 d’un essai contrôlé randomisé présente les caractéristiques initiales des
patients par groupe de randomisation. Il doit présenter toutes les caractéristiques
importantes des patients au regard de l’essai (l’âge, le sexe, la sévérité de la maladie, les
antécédents, les comorbidités éventuelles, les autres traitements pris par les patients…). Il
permet de vérifier que les caractéristiques initiales des patients sont relativement
comparables entre les 2 groupes. Cette évaluation se fait « à l’œil » (Eye Ball test) ce qui
signifie sans faire de tests statistiques.
Pour évaluer si les groupes sont comparables, il faut prendre en compte l’effectif de l’essai.
En cas de faible effectif, on peut s’attendre à quelques déséquilibres entre les groupes liés
aux fluctuations d’échantillonnage. En revanche, si l’effectif est élevé, les déséquilibres entre
les groupes doivent être minimes. De plus, les déséquilibres liés aux fluctuations
d’échantillonnage doivent aller dans les 2 sens (favorisant tantôt le bras expérimental tantôt
le bras contrôle). Des déséquilibres favorisant toujours le même groupe doivent alerter et
faire évoquer un risque de biais de sélection.
Faculté de médecine Paris Descartes
Page 108
Enseignement de Lecture Critique d’Article
Exemple :
Tableau 18 : Exemple de Tableau 1
Dans cet exemple, les groupes sont relativement comparables en termes de
caractéristiques initiales.
Faculté de médecine Paris Descartes
Page 109
Enseignement de Lecture Critique d’Article
Remarques :
• L’absence de différence majeure entre les groupes randomisés est un indice de
qualité mais n’est pas synonyme de randomisation bien faite, car les groupes
peuvent différer sur des caractéristiques non renseignées dans l’essai.
• Une randomisation de bonne qualité peut ne pas aboutir à des groupes
comparables, par le simple fait du hasard (fluctuations d’échantillonnage), surtout
en cas de petit effectif.
• Quelle
qu’en
soit
la
raison
(randomisation
mal
faite
ou
fluctuations
d’échantillonnage), si les groupes diffèrent, il faut déterminer si la différence est
suffisamment importante pour altérer les résultats. Parfois on envisagera un
ajustement statistique pour tenir compte des différences entre les groupes. Si les
groupes sont trop différents, cela peut invalider les résultats de l’étude.
2.4.5 Le maintien de la comparabilité des groupes pendant l’essai
Afin d’être sûr que la différence de résultats observée entre les 2 groupes n’est due qu’au
traitement reçu, il est nécessaire de maintenir la comparabilité des groupes (qui a été
obtenue avec la randomisation) pendant toute la durée de l’essai et ce jusqu’à l’analyse. Le
double aveugle et l’analyse en intention de traiter permettent de maintenir la
comparabilité des groupes pendant le suivi et l’analyse, respectivement et de limiter les biais.
2.4.5.1 Le double aveugle
S’il connait le traitement qu’il a reçu, le patient risque de modifier son comportement. Par
exemple s’il est randomisé dans le groupe absence de traitement, il pourra être déçu et
quitter l’essai. A l’inverse s’il est randomisé dans le groupe expérimental, il pourra redouter
de présenter des effets secondaires. De la même manière, le médecin qui suit le patient va
modifier son comportement (même de manière inconsciente) s’il sait quel traitement le
patient a reçu. Par exemple, il pourra prescrire d’autres traitements s’il sait que le patient n’a
pas reçu le traitement expérimental afin que celui-ci ne soit pas lésé.
Toutes ces différences de comportement peuvent avoir un impact sur le critère de jugement
et ainsi biaiser l’estimation de l’effet de l’intervention. En l’absence d’aveugle, il y a un risque
de biais de performance (ou de suivi) lié à des différences systématiques dans le suivi des
Faculté de médecine Paris Descartes
Page 110
Enseignement de Lecture Critique d’Article
patients (par exemple, liées à une plus grande prescription de corticoïdes dans le groupe
contrôle pour « compenser »).
Le double aveugle permet d’éviter que des différences liées au groupe de randomisation et
pouvant influencer le critère de jugement n’apparaissent au cours du suivi.
L’essai est dit en double aveugle si ni le patient, ni le médecin ne connaissent le
groupe de randomisation du patient tout au long du suivi. Il permet de maintenir la
comparabilité des groupes randomisés au cours du suivi.
Pour qu’un essai soit en double aveugle, il faut que les patients du groupe contrôle reçoivent
soit un placebo ayant les mêmes caractéristiques (apparence, goût, forme) que le traitement
expérimental soit que le traitement actif (si le comparateur est un traitement actif) ait la
même apparence ce qui n’est pas toujours possible. Dans le cas d’un essai où le
comparateur
est
un traitement
actif
d’apparence différente ou ayant
un mode
d’administration différent (par exemple quand on compare un nouveau traitement sous la
forme de comprimés à un ancien traitement sous la forme d’injections), il faudra utiliser un
double placebo pour que l’essai soit en double aveugle. Le principe du double placebo est
que tous les patients vont recevoir deux traitements : soit le traitement expérimental et le
placebo du traitement contrôle pour les patients randomisés dans le groupe expérimental
soit le placebo du traitement expérimental et le traitement contrôle pour les patients
randomisés dans le groupe contrôle.
Remarques :
• L’aveugle vis-à-vis du traitement reçu n’est pas toujours possible du fait même de la
nature de l’intervention (par exemple en chirurgie).
• Le terme double aveugle est un terme que les méthodologistes n’aiment pas car il
est trop vague : cela implique que 2 protagonistes de l’essai sont en aveugle mais
on ne sait pas forcément lesquels (habituellement, il s’agit du patient et du médecin,
mais…on ne sait jamais). C’est pourquoi il est préférable de préciser qui est en
aveugle du traitement reçu dans l’essai :
- le patient ?
- le médecin qui suit le patient ?
-la personne qui évalue le critère de jugement qui peut être soit le patient (par
exemple pour la douleur) soit le médecin (par exemple infarctus du myocarde) soit
Faculté de médecine Paris Descartes
Page 111
Enseignement de Lecture Critique d’Article
une personne extérieure.
- le statisticien ?
2.4.5.2 L’analyse en intention de traiter
Dans l’analyse en intention de traiter, tous les patients randomisés sont analysés et
ce, dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement
effectivement reçu, qu’ils aient ou non terminé ou même commencé le traitement et quel que
soit leur suivi. On les analyse comme ils auraient dû être traités et non comme ils ont été
traités réellement.
Exemple :
Dans cet exemple, on cherche à comparer l’accouchement par césarienne par rapport à
l’accouchement par voie basse chez des femmes avec un bébé qui se présente par le siège.
On randomise 90 femmes dans chaque groupe.
Dans le groupe « voie basse », 10 femmes ont dû avoir une césarienne en urgence en
raison d’une souffrance fœtale. Ces 10 femmes doivent être analysées et ce dans le groupe
Faculté de médecine Paris Descartes
Page 112
Enseignement de Lecture Critique d’Article
« voie basse » selon le principe de l’analyse en intention de traiter. L’analyse doit donc
comparer le devenir des 90 femmes du groupe « voie basse » (80 ayant vraiment accouché
par voie basse plus 10 ayant eu une césarienne) par rapport aux 90 femmes du « groupe
césarienne ». La souffrance fœtale peut être liée au fait que la voie basse n’était pas
adaptée. Exclure ces 10 patientes risque de surestimer le bénéfice de la voie basse.
L’analyse en intention de traiter permet de maintenir la comparabilité des groupes
randomisés au moment de l’analyse. C’est la méthode d’analyse de référence des essais
randomisés (de supériorité). De plus, en l’absence d’analyse en intention de traiter, il y a un
risque un biais d’attrition car les patients perdus de vue ou qui ont arrêté le traitement l’ont
peut être fait en raison d’un manque d’efficacité ou d’effets secondaires.
Les auteurs rapportent souvent une analyse en intention de traiter dans les méthodes mais
quand on évalue le diagramme de flux ou les résultats, il est fréquent que des patients aient
été exclus de l’analyse.
Il faudra donc vérifier que l’analyse est bien en intention de traiter: pour cela, il faudra
évaluer :
-
le diagramme de flux : le nombre de patients analysés en bas du diagramme de flux
doit correspondre au nombre de patients randomisés
-
les résultats : le dénominateur doit correspondre au nombre de patients randomisés
Exemple :
Dans cet essai contrôlé randomisé, les auteurs rapportent dans les méthodes que l’analyse
est en intention de traiter. Cependant le diagramme de flux montre que des patients ont été
exclus de l’analyse.
Faculté de médecine Paris Descartes
Page 113
Enseignement de Lecture Critique d’Article
Figure 21 : Exemple de diagramme de flux
L’analyse en intention de traiter doit être systématiquement associée à une stratégie de
gestion des données manquantes.
Prenons l’exemple d’un essai contrôlé randomisé comparant un nouveau médicament à un
placebo et avec comme critère de jugement principal la survenue d’un infarctus du myocarde
dans l’année et avec 200 patients randomisés dans le bras expérimental et 200 dans le bras
placebo. Si 20 patients sont perdus de vue dans le bras expérimental et 30 dans le bras
contrôle, l’analyse en intention de traiter devra porter sur les 400 patients. Le problème, c’est
que si on analyse les données comme cela, sans rien faire de plus, cela revient à considérer
qu’aucun des perdus de vue n’a eu d’infarctus du myocarde dans l’année ce qui est peut être
faux. Il faut donc mettre en place une stratégie de gestion des données manquantes pour
imputer les données de ces 20+ 30 perdus de vue.
Faculté de médecine Paris Descartes
Page 114
Enseignement de Lecture Critique d’Article
Les stratégies de gestion des données manquantes recommandées sont :
-
l’imputation multiple. Il s’agit d’une analyse statistique permettant de remplacer les
valeurs manquantes du critère de jugement en fonction des caractéristiques des patients
perdus de vue.
-
la méthode du pire scénario. Cette méthode revient à considérer les données
manquantes du bras expérimental comme des échecs (ou des non-réponses) et les
données manquantes du bras contrôle comme des succès (ou des réponses). Dans
notre exemple, cela reviendrait à considérer que les 20 perdus de vue du groupe
expérimental ont tous eu un infarctus du myocarde dans l’année alors qu’aucun des 30
perdus de vue du groupe contrôle n’aurait eu d’infarctus du myocarde. Cela est
également probablement faux mais si on arrive à montrer une différence avec cette
méthode, c’est qu’elle existe vraiment. Cette méthode est toutefois peu utilisée car trop
stricte.
Une autre méthode est fréquemment utilisée mais elle n’est pas recommandée. Il s’agit de la
méthode LOCF (Last Observation Carried Forward). Elle consiste à prendre la dernière
valeur disponible pour le patient avant qu’il ne sorte de l’essai. Par exemple, si un patient est
venu en consultation à 6 mois mais n’est pas revenu à 9 mois ni à un an, on prendra son
résultat à 6 mois.
L’autre méthode d’analyse est l’analyse per protocole, où seuls les patients compliants au
protocole c'est-à-dire ayant reçu le traitement ou le placebo pendant toute la durée de leur
suivi sont considérés. Dans les essais contrôlés randomisés de supériorité, seule
l’analyse en intention de traiter est recommandée. L’analyse en ITT est plus
conservatrice c'est-à-dire qu’elle a tendance à diminuer les différences entre les 2 groupes.
L’analyse per protocole donne des résultats plus favorables car on exclut tous les patients
qui n’ont pas respecté le protocole (on exclut ceux qui ont arrêté le traitement car il ne leur
paraissait pas efficace, ceux qui ont arrêté le traitement en raison d’effets secondaires,…)
Faculté de médecine Paris Descartes
Page 115
Enseignement de Lecture Critique d’Article
Exemples :
• Monsieur D. est randomisé dans un groupe, il ne sait pas lequel car c’est une étude
en double aveugle. Il ne se passe rien de particulier et il arrive au bout de l’étude.
On révèle alors qu’il était randomisé dans le groupe traitement.
o En analyse en intention de traiter, on le considère dans le groupe traitement
o En analyse per protocole, on le considère également dans le groupe
traitement
• Monsieur M. est randomisé dans un groupe, il ne sait pas lequel car c’est une étude
en double aveugle. Il prend le premier comprimé mais ensuite il arrête le traitement
(ou le placebo). A la fin du suivi, on révèle qu’il était randomisé dans le groupe
placebo et le patient avoue n’avoir pris qu’un comprimé.
o En analyse en intention de traiter, on le considère dans le groupe placebo
o En analyse per protocole, le patient sera exclu de l’analyse
• Madame V. est randomisée dans un groupe, elle ne sait pas lequel car c’est une
étude en double aveugle. A la moitié du suivi, elle présente un événement
indésirable grave. Le protocole de l’étude prévoit qu’en cas d’effet indésirable grave
potentiellement imputable au nouveau traitement, l’aveugle doit être levé. On révèle
que Madame V. a été randomisée dans le groupe traitement. Elle arrête alors le
traitement jusqu’à la fin de l’étude.
o En analyse en intention de traiter, on la considère dans le groupe traitement
o En analyse per protocole, la patiente sera exclue de l’analyse
Faculté de médecine Paris Descartes
Page 116
Enseignement de Lecture Critique d’Article
Remarques :
• Le terme « intention de traiter » est le plus répandu car la plupart des essais
randomisés sont des essais thérapeutiques. On peut cependant le décliner en
« intention de diagnostiquer » si l’on a randomisé l’utilisation ou non d’un test
diagnostique, ou intention de dépister dans les essais où l’on évalue l’intérêt d’une
intervention de dépistage.
• Vous entendrez également parler de population d’analyse en intention de traiter ou
per protocole.
• Pour comprendre le concept d’intention de traiter, dites-vous qu’on ne compare pas
des sujets traités et non traités, mais des sujets que l’on avait ou non l’intention de
traiter. C’est une analyse plus proche de la « vraie vie » que l’analyse per protocole,
car en pratique clinique on ne sait pas ce qui va arriver lorsque l’on prend une
décision médicale (le patient peut ne pas prendre le traitement, prendre son
traitement un jour sur deux, ne pas revenir en consultation,…).
2.4.6 Les critères de jugement
2.4.6.1 Définition d’un critère de jugement principal
S’il y a plusieurs critères de jugement (quasi-totalité des cas dans les essais contrôlés
randomisés), le critère de jugement principal doit être identifiable. il est préférable d’avoir
un seul critère de jugement principal pour maintenir un risque alpha à 5%. Le critère de
jugement principal doit être pré-spécifié dès le protocole (c’est sur ce critère qu’on va faire
le calcul d’effectif) et ne doit pas changer au cours de l’étude notamment au vu des
résultats. La conclusion doit porter sur ce critère de jugement principal.
2.4.6.2 Pertinence clinique du critère de jugement
Les critères de jugement surtout le critère de jugement principal devraient être cliniquement
pertinents.
Faculté de médecine Paris Descartes
Page 117
Enseignement de Lecture Critique d’Article
• Les critères de jugement pertinents sont : la mortalité, tout évènement clinique
(infarctus du myocarde, infection, accident vasculaire cérébral, …), la douleur, la
qualité de vie, les incapacités ou les handicaps.
A
l’inverse,
certains
critères
sont
dits
« intermédiaires » ou
« critères
de
substitution » ou « surrogate » en anglais. Il peut s’agir de mesures cliniques (ex :
mesure de la pression artérielle), biologiques (ex : mesure de la clairance de la
créatinine) ou radiologiques (mesure de la densité minérale osseuse). Ces critères
permettent une évaluation à court-terme avec une durée de l’étude moins longue et un
nombre de patients recrutés moins importants (donc un coût moindre).
Exemple :
Pour évaluer l’efficacité d’une chimiothérapie contre le cancer de la prostate, on pourrait
s’intéresser :
• à la mortalité toutes causes confondues, la mortalité par cancer de la prostate
(critères pertinents)
• à la réduction de la taille de la tumeur, la baisse du taux sanguin de PSA (critères
intermédiaires)
Le problème est que les critères intermédiaires ne sont pas forcément corrélés avec la
mortalité ou les évènements cliniques tels que la survenue d’un infarctus du myocarde
(critères vraiment pertinents pour le patient nécessitant des études plus longues et plus
coûteuses).
Faculté de médecine Paris Descartes
Page 118
Enseignement de Lecture Critique d’Article
Exemple :
Cet exemple porte sur l’ostéoporose et montre l’effet de différents types de traitement sur
deux types de critères de jugement : la densité minérale osseuse qui est un critère
intermédiaire et la survenue de fractures qui est le critère important pour le patient. On peut
constater que l’effet de ces différents types de traitement sur le critère intermédiaire n’est
pas forcément corrélé à l’effet sur le critère important pour le patient. Notamment, les
fluorides augmentent la densité minérale osseuse mais augmentent le risque de fractures.
2.4.6.3 Notion de subjectivité/objectivité
L’évaluation du critère de jugement est dite objective si son évaluation est incontestable et
ne peut pas être sujette à des interprétations différentes selon la personne qui l’évalue. Il
s’agit de la mortalité toutes causes confondues et des examens biologiques sans
interprétation par le biologiste (par exemple la mesure de la glycémie).
Certains critères de jugement sont, à l’inverse, très subjectifs comme les critères
rapportés par le patient tels que la douleur, la qualité de vie, le niveau d’incapacité qui sont
utilisés pour évaluer des traitements symptomatiques. Dans ce cas, il est très important que
le patient soit en aveugle du traitement reçu afin de limiter le risque de biais de classement
Faculté de médecine Paris Descartes
Page 119
Enseignement de Lecture Critique d’Article
et que le critère de jugement soit évalué à l’aide d’une échelle validée (par exemple, pour la
qualité de vie, échelle SF36).
Les autres critères : évènements cliniques (par exemple, infarctus du myocarde), critères
radiologiques (par exemple, récidive tumorale évaluée par scanner), mortalité causespécifique (par exemple, mortalité cardiovasculaire) sont des critères dont l’évaluation peut
être considérée comme subjective car soumise à l’interprétation d’un individu. Il faut
également que leur évaluation soit faite en aveugle du traitement reçu afin d’éviter les biais
de classement et essayer de limiter la variabilité entre les évaluateurs (améliorer la
reproductibilité). Pour cela, la définition du critère de jugement doit être bien standardisée,
on peut prévoir une évaluation en double (par 2 personnes de manière indépendante) voire
centralisée avec un comité indépendant (appelé comité d’adjudication).
2.4.6.4 Disponibilité chez tous les patients (faisabilité du recueil du critère de jugement)
Certains critères de jugement sont évalués lors d’examens radiologiques comme la présence
d’un thrombus à la phlébographie de contrôle à 12 mois. Ces critères sont peu pertinents
cliniquement, leur évaluation est subjective et en plus ils sont souvent associés à un grand
nombre de données manquantes (regarder sur le flow chart le nombre de patients ayant reçu
l’examen…).
Exemple :
Essai contrôlé randomisé pour évaluer l’efficacité de 2 dosages différents d’Enoxaparine
(héparine de bas poids moléculaire)1 :
“The primary outcome with respect to efficacy was venous thromboembolism (defined as
deep-vein thrombosis, pulmonary embolism, or both) between days 1 and 14. The
secondary outcome with respect to efficacy was venous thromboembolism between days 1
and 110. Patients were examined for deep-vein thrombosis by systematic ascending
contrast venography of the legs between days 6 and 14, or earlier if thrombosis was
clinically suspected. If venography was infeasible, venous ultrasonography was performed.”
1
M M Samama et al., “A Comparison of Enoxaparin with Placebo for the Prevention of Venous
Thromboembolism in Acutely Ill Medical Patients. Prophylaxis in Medical Patients with Enoxaparin Study
Group,” The New England Journal of Medicine 341, no. 11 (September 9, 1999): 793–800,
doi:10.1056/NEJM199909093411103.
Faculté de médecine Paris Descartes
Page 120
Enseignement de Lecture Critique d’Article
2.4.6.5 Critères composites
Il s’agit de critères composés de plusieurs évènements. Ces critères sont souvent utilisés
dans les essais en cardiologie. Un critère composite peut être, par exemple, la survenue
d’un infarctus du myocarde, d’un AVC ou d’un décès. On considère que le patient a présenté
le critère de jugement s’il a eu au moins l’un de ces évènements. S’il a présenté plusieurs
évènements du critère, on retient la date du premier évènement.
•
Avantages : les critères composites permettent un gain de puissance en
augmentant la probabilité de survenue de l’évènement (ou de réduire l’effectif
nécessaire pour une même puissance). Ils permettent également de prendre
en compte l’ensemble des évènements importants notamment quand on veut
évaluer la balance bénéfice-risque. Par exemple, si on veut évaluer l’intérêt
d’un traitement anti-thrombotique, il peut être intéressant d’avoir un critère de
jugement composite combinant des évènements ischémiques (évaluant
l’efficacité du traitement) et des évènements hémorragiques (évaluant sa
tolérance).
•
Inconvénients : les critères composites sont difficiles à interpréter. Ils doivent
être interprétés tels quels. Si le résultat pour le critère de jugement composite
(par exemple la survenue d’un infarctus du myocarde, d’un AVC ou d’un
décès) est statistiquement significatif, il n’est pas possible de conclure que le
traitement permet de diminuer les décès. La conclusion doit être : « le
nouveau traitement permet de diminuer de manière significative la survenue
d’in infarctus du myocarde, d’un AVC ou d’un décès ».
Chaque évènement clinique composant le critère composite doit être défini
comme critère secondaire. Il faut vérifier que l’effet traitement est le même
pour tous les évènements cliniques du critère composite car l’effet traitement
est souvent plus important pour les évènements les moins graves mais qui
sont le plus souvent les plus fréquents. Il y a aura alors une différence
statistiquement significative pour le critère composite et pas forcément pour
les évènements les plus graves ce qui pose problème quant à l’interprétation
d’un bénéfice pour le patient. C’était le cas dans l’exemple donné ci-dessous :
Faculté de médecine Paris Descartes
Page 121
Enseignement de Lecture Critique d’Article
Exemple :
Figure 22 : Interprétation des résultats d’un critère de jugement composite
Dans cet exemple, le critère de jugement composite est défini comme la survenue d’un
décès, d’une insuffisance rénale terminale ou d’un doublement de la créatinine. Il y a une
différence statistiquement significative pour le critère de jugement composite. Quand on
regarde les composantes du critère composite, il n’y a pas de différence statistiquement
significative pour la mortalité globale ni pour l’insuffisance rénale terminale qui sont deux
critères importants pour le patient. La seule différence statistiquement significative observée
est pour le critère « doublement de la créatinine » qui du fait de sa plus grande fréquence
entraine la significativité statistique du critère composite. Mais ce critère est un critère
intermédiaire qui n’est pas important pour le patient. Cet essai pose donc un problème
d’interprétation du bénéfice pour le patient.
2.4.7 Calcul d’effectif
Afin d’assurer une puissance statistique suffisante (c’est-à-dire limiter suffisamment les
fluctuations d’échantillonnage pour montrer une différence jugée cliniquement importante), il
faut calculer le nombre de sujets nécessaires. L’estimation du nombre de sujets
nécessaires pour l’étude doit être faite a priori et planifiée pour des raisons scientifiques et
éthiques. Il faut théoriquement inclure suffisamment de sujets pour avoir une forte probabilité
de détecter une différence statistiquement significative qui doit correspondre à une différence
« cliniquement importante » sur le critère de jugement principal.
Faculté de médecine Paris Descartes
Page 122
Enseignement de Lecture Critique d’Article
Les éléments utilisés pour estimer le nombre de sujets nécessaires sont :
• la puissance statistique souhaitée (devrait être > 0,80)
• le niveau de l’erreur alpha (0,05 en général)
• la valeur attendue du paramètre dans le groupe contrôle (au mieux, documentée par
la référence à des études antérieures)
• la différence minimale entre les groupes jugée cliniquement pertinente: plus la
différence à montrer est faible, plus il faudra de sujets.
2.4.8 Respect des règles éthiques et enregistrement des essais
2.4.8.1 Règles éthiques
Les essais contrôlés randomisés sont soumis à des règles très strictes sur le plan éthique.
Ils sont régis par la loi Huriet-Serusclat. Pour tout essai contrôlé randomisé, le protocole
complet doit être soumis pour approbation à un comité d’éthique pour pouvoir débuter. En
France, ce comité d’éthique est le comité de protection des personnes (le CPP). Pour
pouvoir entrer dans l’étude, un patient doit avoir reçu par oral et par écrit (notice
d’information) une information claire et loyale et il doit avoir signé un consentement libre
et éclairé qui est révocable à tout moment.
Pour pouvoir conduire un essai, il faut que la clause d’ambivalence soit respectée c'est-àdire que tous les patients doivent pouvoir recevoir l’un ou l’autre des traitements (ils ne
doivent pas présenter de contre-indication à l’un ou l’autre des traitements).
2.4.8.2 Enregistrement des essais
La planification de l’essai est un élément très important. Avant son début, un protocole doit
être rédigé. Celui-ci doit comporter une synthèse de la littérature scientifique permettant de
poser le problème, une formulation claire et complète de l’objectif, la description détaillée des
méthodes qui vont être employées :
-
Plan expérimental avec sa justification
-
Population étudiée : Mode de recrutement (centres,…), critères d’éligibilité
-
Randomisation
Faculté de médecine Paris Descartes
Page 123
Enseignement de Lecture Critique d’Article
-
Description des interventions à l’étude
-
Description du critère de jugement principal et des critères secondaires
-
Calcul d’effectif
-
Plan d’analyse statistique
-
Aspects éthiques
-
Organisation pratique de l’essai
Il est très important d’évaluer s’il y a eu des écarts au protocole c'est-à-dire des
changements par rapport à ce qui avait été prévu (par exemple, un changement de critère de
jugement principal) car cela peut affecter les résultats de l’essai et le biaiser. En effet, si les
investigateurs font leur essai et se rendent compte au moment de l’analyse que le critère de
jugement principal qui avait été défini dans le protocole n’est pas significatif et qu’il change
pour mettre comme critère de jugement principal un critère de jugement secondaire dont le
résultat est statistiquement significatif, cela va biaiser les résultats de l’essai (Biais de
présentation sélective des critères de jugement ou « Selective outcome reporting ») pour la
raison suivante : plus on fait de tests statistiques, plus on augmente le risque alpha de
conclure à une différence statistiquement significative alors que la différence est en fait due
au hasard. Si on choisit parmi tous les critères de jugement secondaires testés (souvent un
certain nombre) celui qui est statistiquement significatif, cela va favoriser des résultats
statistiquement significatifs qui sont potentiellement dus au hasard et surestimer l’effet du
traitement.
Cette pratique est malheureusement courante. Plusieurs travaux méthodologiques ont
montré que le critère de jugement principal était modifié par rapport au protocole dans
environ 1/3 des essais et évidemment cela favorise des résultats statistiquement significatifs.
Vérifier que ce qui est rapporté dans l’article est conforme à ce qui a été planifié dans le
protocole est un élément essentiel pour apprécier la validité des résultats d’un essai. Le
problème est que les protocoles sont rarement publiés.
Afin de pouvoir vérifier que ce qui est rapporté dans l’article est cohérent avec ce qui a été
planifié au départ, un système d’enregistrement des essais a été mis en place à partir de
2005. Cet enregistrement doit être fait par l’investigateur principal ou le promoteur de l’essai
avant le recrutement du premier patient dans un registre gratuit reconnu par l’OMS (le plus
connu étant ClinicalTrials.gov (https://clinicaltrials.gov/)). Tous les éléments importants du
protocole (type d’essai, critère de jugement principal, …) doivent être enregistrés ce qui
Faculté de médecine Paris Descartes
Page 124
Enseignement de Lecture Critique d’Article
permet d’évaluer s’il y a eu des changements importants pouvant affecter les résultats au
cours de l’essai (par exemple, des changements de critère de jugement principal).
2.4.9 Interprétation des résultats d’un essai
2.4.9.1 Interprétation des résultats pour le critère de jugement principal
•
Est-ce que le résultat pour le critère de jugement principal est statistiquement
significatif ?
Il faut évaluer le p, le degré de significativité du test.
Si p<0.05, on peut conclure que la différence est statiquement significative
Si p≥ 0.05, il n’y a pas de différence statistiquement significative et on ne peut rien
conclure d’autre.
Exemple :
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89
Conclusions Salicylic acid and the cryotherapy were equally effective for clearance of
plantar warts.”
Dans cet exemple, p est >0.05, il n’y a pas de différence statistiquement significative
entre les 2 traitements (acide salicylique et cryothérapie) en termes de disparition de
la verrue plantaire (le critère de jugement principal). Et on ne peut rien conclure
d’autre. La conclusion des auteurs dans le résumé (les 2 traitements ont une
efficacité équivalente en termes de disparition de la verrue) est donc erronée.
•
Est-ce que la différence observée est cliniquement pertinente ? (quelle est la
taille d’effet ?)
Quand on interprète les résultats d’un essai, il faut garder à l’esprit qu’une différence
statistiquement significative ne traduit pas forcément une différence cliniquement
Faculté de médecine Paris Descartes
Page 125
Enseignement de Lecture Critique d’Article
pertinente. En effet, plus l’essai aura inclus de patients, plus il aura de puissance pour
mettre en évidence de faibles différences qui ne sont pas forcément pertinentes.
Il convient donc d’évaluer si la différence observée est cliniquement pertinente. Pour cela, il
faut évaluer la taille d’effet (effect size) et en particulier la réduction absolue du risque
(qui correspond à la différence de risque entre les 2 groupes) ou le nombre de patients à
traiter pour éviter un évènement (qui correspond à l’inverse de la réduction absolue du
risque). Une réduction relative du risque peut donner une estimation trompeuse de la taille
d’effet. Par exemple, une réduction relative du risque de 50% peut correspondre à une
réduction absolue de risque de 1% ce qui est très faible et peu pertinent.
Exemple :
Dans un essai contrôlé randomisé, la mortalité à 3 mois est de 20/200 (10%) dans le bras
expérimental et de 30/200 (15%) dans le groupe contrôle.
Nous avons :
-
Réduction absolue du risque : 15%-10%=5%
-
Réduction relative du risque : (15%-10%)/15%=33%
-
Nombre de patients à traiter pour éviter un évènement : 1/0.05=20 c'est-à-dire qu’il
faudra traiter 20 patients pour éviter un seul décès à 3 mois.
En pratique, il est souvent difficile d’apprécier si la différence est pertinente cliniquement.
Cela dépend de la pathologie et du critère de jugement. Une réduction absolue du risque de
5% est très importante quand il s’agit de la mortalité globale mais moins importante quand il
s’agit d’autres critères comme la proportion de patients douloureux.
2.4.9.2 Interprétation des résultats pour les critères secondaires
Les
résultats
des
critères
de
jugement
secondaires
doivent
être
interprétés
précautionneusement surtout si le résultat pour le critère de jugement principal n’est pas
statistiquement significatif. En effet, en général le nombre de critères de jugement
Faculté de médecine Paris Descartes
Page 126
Enseignement de Lecture Critique d’Article
secondaires est assez important ce qui entraîne une inflation du risque alpha de conclure à
une différence qui n’existe pas.
Il n’est pas possible de conclure à l’efficacité d’un traitement sur la base du résultat d’un
critère de jugement secondaire si le résultat pour le critère de jugement principal n’est pas
statistiquement significatif.
2.4.9.3 Interprétation d’une analyse intermédiaire
Une analyse intermédiaire est une analyse effectuée avant l'inclusion de tous les sujets
prévus. Elle est réalisée le plus souvent lorsque l'étude est longue et qu’il y a un risque pour
les patients. L’idée est que si le nouveau traitement, ou l’intervention, fonctionne vraiment
bien (ou vraiment mal), ce n’est peut-être pas la peine (voire contraire à l’éthique) d’attendre
la fin de l’étude pour présenter les résultats. Idéalement, ces analyses intermédiaires sont
gérées par un comité indépendant : le Data Safety Monitoring Board
Une analyse intermédiaire doit être prévue à l’avance, et décrite dans le protocole. Les
règles d’arrêt de l’étude doivent être définies. En effet, si on répète l’analyse au fur et à
mesure des inclusions, on risque de trouver à un moment donné une différence
statistiquement significative par le simple fait du hasard. C’est le risque alpha. Si on fait un
seul test statistique pour le critère de jugement principal en fin d’étude, le risque alpha est de
5% mais si on fait des tests statistiques de manière répétée, le risque alpha va augmenter et
la probabilité de conclure à une différence qui n’existe pas également. Si l’on arrête alors
l’étude, on va conclure à l’existence d’une différence alors qu’elle est possiblement due au
hasard. Si l’on prévoit des analyses intermédiaires, il faudra donc corriger le risque alpha de
chaque test pour que le risque alpha global, c’est-à-dire sur l’ensemble des analyses
prévues (intermédiaires et finale), soit de 5%. Plus on prévoit d’analyses intermédiaires, plus
le risque alpha « partiel » considéré dans chacune d’elles sera faible.
Il est possible d’arrêter l’essai après une analyse intermédiaire si les règles d’arrêt
prédéfinies ont été atteintes.
Faculté de médecine Paris Descartes
Page 127
Enseignement de Lecture Critique d’Article
Exemple2 :
“We planned two interim analyses at 2500 patient-years and 5000 patient-years. The study
could be stopped according to Peto’s rule if a significant difference in all-cause mortality was
seen between the two groups at p < 0.001 (two-tailed log- rank test).”
Les auteurs définissent bien les règles d’arrêt des deux analyses intermédiaires : le
moment (2500 et 5000 patients-années) et le seuil de signification (p < 0,001).
“2647 patients were enrolled into the study and followed up for a mean of 1.3 years. (…)
The trial was stopped early because all-cause mortality was significantly less in the
bisoprolol group than in the placebo group (figure 1). In the bisoprolol group, 156 (11.8%)
patients died, compared with 228 (17.3%) in the placebo group (p < 0.0001).”
Les auteurs ont fait une analyse intermédiaire comme prévu à environ 2500 patientsannées (2647 patients dont on additionne les durées de suivi, ce qui fait
probablement 2500), le test statistique (log-rank) abouti à un p < 0.0001. Il est inférieur
au seuil fixé a priori (0.001). L’étude a donc été arrêtée et les auteurs ont conclu à un
effet du traitement.
2.4.9.4 Interprétation des analyses en sous-groupe
Il s’agit de l’analyse du critère de jugement principal dans des sous-groupes de patients
définis selon leurs caractéristiques (par exemple, l’âge, le sexe, le stade de la maladie). Ces
analyses permettent d’évaluer si l’effet traitement est le même quelles que soient les
caractéristiques de la population.
Les analyses en sous-groupes doivent être prédéfinies et doivent être considérées comme
des analyses exploratoires. La conclusion de l’essai doit porter sur le résultat pour toute la
population et non sur l’un des sous-groupes et ce d’autant plus qu’il n’y a pas de différence
statistiquement significative dans la population globale. En effet, les analyses en sousgroupe ne devraient être interprétées que si le résultat pour le critère de jugement principal
est statistiquement significatif. Le fait de faire des analyses en sous-groupe entraine une
inflation du risque alpha (plus on fait de tests, plus le risque alpha augmente) et il sera donc
2
“The Cardiac Insufficiency Bisoprolol Study II (CIBIS-II): A Randomised Trial,” Lancet 353, no. 9146 (January 2,
1999): 9–13.
Faculté de médecine Paris Descartes
Page 128
Enseignement de Lecture Critique d’Article
fréquent d’avoir un résultat statistiquement significatif pour l’un des sous-groupes par le
simple fait du hasard.
Les résultats des analyses en sous-groupe sont fréquemment présentés sous la forme de
figures (appelées Forest plot).
Exemple :
Figure 23 : Interprétation des résultats d’une analyse en sous-groupe
Dans cet exemple, 3 analyses en sous-groupe ont été réalisées : en fonction de l’âge (moins
de 77 ans versus plus de 77 ans), en fonction du sexe (hommes et femmes) et en fonction
de l’index d’Hardman (index=0, index=1, index≥2). Pour évaluer s’il existe une différence
d’effet traitement selon le sous-groupe, il faut faire un test d’interaction entre l’effet du
traitement et le sous-groupe. Le résultat de ce test est le p qui est représenté à droite. Dans
cet exemple, seul le test d’interaction pour le sexe est statistiquement significatif (p=0.019)
c’est à dire qu’il y a une différence d’effet traitement entre les hommes et les femmes.
Toutefois, on ne peut rien en conclure. Il serait ainsi complètement erroné de conclure à un
bénéfice de l’intervention dans le groupe contrôle chez les femmes car il n’y a pas de
différence statistiquement significative globalement (OR=0.94, IC 95% 0.67-1.33).
Faculté de médecine Paris Descartes
Page 129
Enseignement de Lecture Critique d’Article
2.4.9.5 Interprétation des résultats de tolérance
La tolérance d’un traitement est un élément essentiel à évaluer mais elle est fréquemment
mal rapportée dans les essais.
Tous les évènements indésirables doivent être décrits par groupe de traitement avec leur
fréquence de survenue. Les évènements indésirables graves qui sont définis par le décès,
tout évènement clinique ayant entraîné la prolongation d’une hospitalisation, une anomalie
congénitale, ou une incapacité, doivent être rapportés par groupe de traitement avec leur
fréquence de survenue.
Les analyses de tolérance manquent fréquemment de puissance car les évènements
indésirables sont rares (particulièrement les évènements indésirables graves) et le calcul
d’effectif n’est fréquemment pas fait sur des critères de tolérance. Le fait qu’il n’y ait pas de
différence statistiquement significative ne permet donc absolument pas de conclure à
un bon profil de tolérance du traitement évalué. Il faudra évaluer la différence de
pourcentages entre les 2 groupes.
2.4.10 Plans expérimentaux particuliers
Nous nous sommes placés jusque ici dans la situation la plus fréquente c’est à dire un essai
contrôlé randomisé à 2 bras parallèles et de supériorité.
En fait il existe d’autres types d’essai. Nous aborderons ici 2 autres types d’essai contrôlé
randomisé sur lesquels vous pouvez être interrogés: les essais en cross-over et les essais
d’équivalence ou de non infériorité.
2.4.10.1 Les essais en cross-over
Le principe des essais en cross-over est que tous les patients vont recevoir les 2 traitements
à l’étude. Les patients seront ainsi leur propre contrôle.
Faculté de médecine Paris Descartes
Page 130
Enseignement de Lecture Critique d’Article
Figure 24 : Schéma d’un essai en cross-over
La randomisation détermine l’ordre d’attribution des traitements. Les patients sont donc
randomisés en 2 groupes : soit traitement A puis traitement B soit traitement B puis
traitement A. L’essai comporte 2 périodes séparées par une période de wash out (lavage)
qui permet d’éliminer l’effet du traitement donné en 1ère période (effet rémanent ou carryover).
Ce type d’essai présente certains avantages : une comparabilité des groupes parfaite
puisque ce sont les mêmes patients et un effectif diminué par 2 par rapport aux essais à 2
bras parallèles avec un gain de puissance lié à l’analyse d’échantillons appariés.
Cependant il faut respecter certaines conditions pour pouvoir réaliser ce type d’essai.
•
Conditions nécessaires
o
Maladie chronique stable dans le temps : Si la maladie n’est pas
stable, on ne pourra pas être sûr que les résultats observés traduisent
l’effet du traitement, ils pourraient également traduire l’évolution de la
maladie. Ce type d’essai est donc réservé aux maladies telles que
l’asthme, l’épilepsie ou encore la migraine.
o
Les
traitements
à
évaluer
doivent
être
des
traitements
symptomatiques : ils doivent agir de manière temporaire sur les
symptômes et non de manière définitive. L’essai en cross-over n’est ainsi
pas adapté pour évaluer des interventions chirurgicales.
Faculté de médecine Paris Descartes
Page 131
Enseignement de Lecture Critique d’Article
o
Le critère de jugement peut être répété : Cela peut être par exemple, la
douleur. L’essai en cross-over n’est pas adapté pour mesurer des critères
de jugement tels que la mortalité…
o
Période de wash-out : Cette période est nécessaire pour supprimer les
effets du traitement donné en 1ère période. Elle permet de supprimer un
effet rémanent ou carry-over qui peut se définir comme la poursuite de
l’effet du traitement après son arrêt et qui dépend de la demi-vie de la
molécule.
Principe de l’analyse
Il faut systématiquement tester la possibilité d’un effet carry-over en évaluant s’il y a une
interaction entre la période et l’effet du traitement. Si on met en évidence une telle
interaction, il y a un effet carry-over et on ne pourra pas analyser correctement les résultats
de l’essai en cross-over.
2.4.10.2 Les essais d’équivalence ou de non-infériorité
Il arrive fréquemment qu’on soit dans une situation où l’on développe des médicaments qui
présentent moins d’effets secondaires que ceux qui existent déjà ou qui ont un coût
moindre ou encore qui sont plus pratiques d’utilisation (par exemple prise de comprimés
au lieu d’injections). Dans ce cas de figure, on cherche à évaluer si le nouveau traitement a
une efficacité comparable à celui qui existait déjà (mais qui est moins bien toléré, plus cher
ou moins pratique). Comme nous l’avons vu précédemment, avec l’essai « classique »,
l’absence de différence statistiquement significative ne permet pas de déterminer que les
deux traitements sont comparables. Il existe donc un type d’essai particulier permettant de
déterminer si deux traitements sont équivalents ou si le nouveau traitement est non-inférieur
au traitement de référence.
En pratique, il est impossible de déterminer que deux traitements sont strictement
équivalents en termes d’efficacité. On montre donc qu’ils ne sont pas trop différents c'est-àdire qu’on doit définir une borne d’équivalence ou de non-infériorité. Si la différence entre
les 2 traitements (et son intervalle de confiance à 95%) est comprise dans cette borne, on
pourra conclure à l’équivalence ou à la non-infériorité.
Faculté de médecine Paris Descartes
Page 132
Enseignement de Lecture Critique d’Article
Figure 25 : Interprétation des résultats d’un essai selon son plan expérimental
Dans ce schéma, ∆ représente la borne d’équivalence ou de non infériorité. Dans le premier
cas de figure, pour conclure à la supériorité du traitement A, il faut que l’IC à 95% de la
différence soit strictement supérieur à 0. Dans le second cas de figure, pour conclure à
l’équivalence entre A et B, il faut que l’IC à 95% de la différence soit strictement inclus entre
– ∆ et + ∆ (le traitement A ne doit être ni trop inférieur à B ni trop supérieur). Dans le 3ème cas
de figure, pour conclure à la non infériorité de A par rapport à B, il faut que l’IC à 95% de la
différence soit strictement supérieur à – ∆ (le traitement A peut être supérieur).
Le choix de la borne est très difficile. Il doit se faire en fonction de la spécialité et du type de
critère de jugement. La borne va conditionner le nombre de patients à inclure. Plus la borne
est petite, plus il faudra inclure de patients dans l’essai. D’un autre côté si la borne est trop
large, ce serait erroné de considérer que les deux traitements ont une efficacité comparable.
Faculté de médecine Paris Descartes
Page 133
Enseignement de Lecture Critique d’Article
Dans un essai d’équivalence ou de non-infériorité, il faut faire à la fois une analyse en
intention de traiter et une analyse per protocole et vérifier que les résultats sont cohérents
avec ces 2 analyses. En effet, comme nous l’avons vu précédemment, l’analyse en intention
de traiter a tendance à diminuer les différences entre les 2 groupes ce qui risque de faire
conclure plus facilement à l’équivalence ou à la non-infériorité alors que l’analyse per
protocole a tendance à augmenter la différence entre les groupes.
2.4.11 Rappel des biais dans un essai contrôlé randomisé
Tableau 19 : Rappel des principaux biais dans un essai contrôlé randomisé
Nom du biais
A quoi ça correspond ?
Comment limiter le risque de
biais ?
Biais de sélection
Sélection d’un échantillon non
représentatif
Sélection d’un échantillon
représentatif
Absence de comparabilité initiale
des groupes favorisant une des
interventions
Séquence de randomisation
aléatoire et respect de la clause
d’ignorance (assignation secrète)
Biais de performance
Le patient et son médecin peuvent
être influencés s’ils savent quelle
intervention le patient a reçue
Double aveugle si possible
(dépend du type d’intervention)
Biais de classement
L’évaluateur peut être influencé
s’il sait quelle intervention le
patient a reçue
Critère de jugement objectif
(décès toutes causes
confondues)
OU
Evaluation du critère de jugement
en aveugle du traitement reçu si
critère de jugement subjectif
Biais d’attrition
Exclusion de patients de l’analyse
Analyse en intention de traiter
ET
Stratégie de gestion des données
manquantes
Faculté de médecine Paris Descartes
Page 134
Enseignement de Lecture Critique d’Article
2.4.12 Recommandations de reporting pour les essais contrôlés randomisés
Faculté de médecine Paris Descartes
Page 135
Enseignement de Lecture Critique d’Article
Checklist CONSORT 2010 des informations à inclure pour rendre compte d’un
essai randomisé*
Section/sujet
Item
N°
DESCRIPTION
TITRE & RESUME
1a
Identification en tant qu’ “essai randomisé“ dans le titre
1b
Résumé structuré du plan d’essai, méthodes, résultats et conclusions
(pour une aide spécifique voir CONSORT pour Abstract)
2a
Contexte scientifique et explication du bien-fondé
2b
Objectifs spécifiques et hypotheses
3a
Description du plan de l’essai (tel que : groupes parallèles, plan factoriel)
en incluant le ratio d’allocation
3b
Changements importants de méthode après le début de l’essai (tel que
les critères d’éligibilité), en expliquer la raison
4a
Critères d’éligibilité des participants
4b
Structures et lieux de recueil des données
Interventions
5
Interventions pour chaque groupe avec suffisamment de détails pour
pouvoir reproduire l’étude, en incluant comment et quand elles ont été
véritablement conduites
Critères de
jugement
6a
Critères "à priori" de jugement principal et secondaires entièrement
définis, en incluant comment et quand ils ont été évalués
6b
Changement quelconque de critères de jugement après le début de
l’essai, en expliquer la raison
7a
Comment la taille de l’échantillon a-t-elle été déterminée ?
7b
Quand cela est applicable, explication des analyses intermédiaires et des
règles d’arrêt
INTRODUCTION
Contexte et
objectifs
MÉTHODES
Plan de l’essai
Participants
Taille de
l’échantillon
RANDOMISATION
Production de la
8a
séquence
8b
Méthode utilisée pour générer la séquence d’allocation par tirage au sort
Type de randomisation, en incluant les détails relatifs à une méthode de
restriction (comme par ex. : par blocs, avec la taille des blocs)
Mécanisme
d’assignation
secrète
9
Mécanisme utilisé pour mettre en œuvre la séquence d’allocation
randomisée (comme par exemple : l’utilisation d’enveloppes numérotées
séquentiellement), en décrivant chaque mesure prise pour masquer
l’allocation jusqu’à l’assignation des interventions.
Mise en œuvre
10
Qui a généré la séquence d’allocation, qui a enrôlé les participants et qui
a assigné les participants à leurs groupes
Aveugle
11a
Au cas où, décrire qui a été en aveugle après l’assignation des
interventions (par exemple, les participants, les administrateurs de
traitement, ceux qui évaluent les résultats) et comment ont-ils été
empêchés de savoir
11b
Si approprié, description de la similitude des interventions
12a
Méthodes statistiques utilisées pour comparer les groupes au regard des
Méthodes
Faculté de médecine Paris Descartes
Page 136
Enseignement de Lecture Critique d’Article
Section/sujet
Item
N°
statistiques
DESCRIPTION
critères de jugement principal et secondaires
12b
Méthodes utilisées pour des analyses supplémentaires, telles que des
analyses de sous-groupes ou des analyses ajustées
Flux des
participants (un
diagramme est
fortement
conseillé)
13a
Pour chaque groupe, le nombre de participants qui ont été assignés par
tirage au sort, qui ont reçu le traitement qui leur était destiné, et qui ont
été analysés pour le critère de jugement principal
Recrutement
14a
Dates définissant les périodes de recrutement et de suivi
14b
Pourquoi l’essai a-t-il pris fin ou a été interrompu
Données
initiales
15
Une table décrivant les caractéristiques initiales démographiques et
cliniques de chaque groupe
Effectifs
analysés
16
Nombre de participants (dénominateur) inclus dans chaque analyse en
précisant si l’analyse a été faite avec les groupes d’origine
Critères de
jugement et
estimations
17a
Pour chaque critère de jugement principal et secondaire, donner les
résultats pour chaque groupe, et la taille estimée de l’effet ainsi que sa
précision (comme par ex. : intervalles de confiance à 95%)
17b
Pour les variables binaires, une présentation de la taille de l’effet en
valeurs absolues et relatives est recommandée
Analyses
accessoires
18
Résultats de toute analyse supplémentaire réalisée, en incluant les
analyses en sous-groupes et les analyses ajustées, et en distinguant les
analyses spécifiées à priori des analyses exploratoires
Risques
19
Tous les risques importants ou effets secondaires inattendus dans
chaque groupe (pour un conseil détaillé voir ‘CONSORT for harms’)
Limitations
20
Limitations de l’essai, en tenant compte des sources de biais potentiels
ou d’imprécision, et au cas où, en tenant compte de la multiplicité des
analyses
“Généralisabilité”
21
“Généralisabilité“ (validité externe, applicabilité) des résultats de l’essai
Interprétation
22
Interprétations/conclusions cohérentes avec les résultats, en tenant
compte du ratio bénéfices/risques et de possibles autres faits pertinents
RESULTATS
Pour chaque groupe, abandons et exclusions après la randomisation, en
donner les raisons
DISCUSSION
INFORMATIONS SUPPLEMENTAIRES
Enregistrement
23
Numéro d’enregistrement de l’essai en précisant le registre utilisé
Protocole
24
Où le protocole complet de l’essai peut-il être consulté, si possible
Financement
25
Sources de financement et autres ressources (par ex. : fourniture de
médicaments), rôle des donateurs
* Il est recommandé de lire cette liste CONSORT 2010 à l’aide du document ‘CONSORT 2010
Explanation and Elaboration’ pour mieux comprendre les clarifications apportées à cette nouvelle
version. Si opportun, il est aussi recommandé de lire les extensions CONSORT pour les essais en
grappes randomisées, les essais de non-infériorités et d’équivalence, les traitements non
médicamenteux, les interventions à base d’herbes, les essais pragmatiques. D’autres futures
extensions sont attendues. Pour ces extensions et pour des références récentes en rapport avec cette
liste CONSORT 2010, aller à : http://www.consort-statement.org/consort-statement/overview0/
Faculté de médecine Paris Descartes
Page 137
Enseignement de Lecture Critique d’Article
Traduction originale de la liste CONSORT 2010 issue de l’article de: Schulz KF, Latman DG, Moher
D. CONSORT 2010 Statement: Updated Guidelines for Reporting Parallel Group Randomised Trials.
PLoS Med. 2010;7(3): e1000251. doi:10.1371/journal.pmed.1000251, et d'après la traduction originale
de la liste CONSORT 2001 par Pauline Brindel, Caroline Tournoux, Jean-Philippe Jais et Paul
Landais,
2006,
consultable
en
version
interactive
sur
http://eb.medecine.univparis5.fr/moodle/course/view.php?id=2
Revue d’Odonto-Stomatologie Février 2010 pp 32-36
extrait de : Cannac C, Viargues P, Dot D. L’écriture scientifique: approche et discussion. Rev
Odont Stomat 2010;39:3-75
Figure 26 : CONSORT 2010 Flow Diagram3
3
Kenneth F Schulz, Douglas G Altman, and David Moher, “CONSORT 2010 Statement: Updated Guidelines for
Reporting Parallel Group Randomised Trials,” BMJ (Clinical Research Ed.) 340 (2010): c332.
Faculté de médecine Paris Descartes
Page 138
Enseignement de Lecture Critique d’Article
2.5 Evaluation d’une intervention de prévention ou de dépistage
2.5.1 Prévention
La prévention est l’ensemble des mesures permettant d’éviter l’apparition, l’aggravation et
l’extension de certaines maladies.
L’épidémiologie fournit les données essentielles à l’élaboration des mesures préventives car
elle permet l’identification des déterminants des maladies et la démonstration de l’utilité de
leur élimination. Elle permet donc aussi la validation des mesures de prévention.
Trois types de prévention sont actuellement considérés :
-
La prévention primaire : vise à éviter la survenue de la maladie et des facteurs de risque
(ex : mesures législatives, éducatives)
-
La prévention secondaire : vise à reconnaître une maladie plus tôt dans l’histoire
naturelle, avant que cette maladie soit symptomatique ou rapidement après (ex :
dépistage, mesures curatives)
-
La prévention tertiaire : vise à réduire les conséquences d’une maladie déjà déclarée
(ex : rééducation, réadaptation, éducation thérapeutique)
Les stratégies de prévention peuvent s’inscrire dans deux cadres : collectif ou individuel.
Pour la majorité des maladies, une combinaison de ces deux types de stratégies est utilisée
Prévention de masse
Prévention individuelle
(toute la population)
(population à haut risque)
Souvent passive
Le plus souvent active
(peu d’implication des individus)
(implication active des individus)
Bénéfice individuel petit
Bénéfice individuel grand
Bénéfice collectif grand
Bénéfice collectif petit
Fluoration de l’eau
Régime alimentaire chez les obèses
Vaccination antipoliomyélite
Traitement de l’hypertension
Port de la ceinture de sécurité
Faculté de médecine Paris Descartes
Page 139
Enseignement de Lecture Critique d’Article
La prévention n’est pas toujours acceptée de la même manière par tout le monde car les
messages préventifs peuvent véhiculer de l’inquiétude et l’interprétation du rapport
bénéfice/risque n’est pas toujours identique : certains ne voient que le bénéfice (ex : le
dépistage) alors que d’autres ne voient que le risque (ex : les effets secondaires attribués
aux vaccins).
2.5.2 Dépistage
2.5.2.1 Définitions
Une procédure de dépistage vise à identifier dans une population a priori en bonne santé
des sujets ayant une maladie inapparente ou à risque élevé de présenter une maladie, en
vue d’examens complémentaires, d’un suivi plus rapproché ou de mesures de prévention.
La problématique est donc très différente de celle d’une procédure diagnostique qui est
réalisée sur indication (symptômes de la maladie) en vue d’affirmer ou d’infirmer l’existence
d’une pathologie.
Le dépistage opportuniste ou individuel est un dépistage fait sur proposition du médecin
traitant, d’un spécialiste ou d’un médecin du travail de faire un test susceptible de découvrir
au stade asymptomatique une maladie curable qui n’est pas l’objet de la consultation.
Le dépistage collectif organisé (« systématique » ou « de masse ») est mis en place sur
décision de l’état et prend souvent la forme de grandes campagnes menées en population.
Son organisation définit les responsabilités des multiples partenaires concernés. Il est pris en
charge totalement.
Enfin, le dépistage peut être sélectif (ou ciblé) et est appliqué sur une population recrutée
sur des critères préalablement définis (facteurs de risque).
Faculté de médecine Paris Descartes
Page 140
Enseignement de Lecture Critique d’Article
2.5.2.2 Avantages et inconvénients d’une procédure de dépistage
Avantages
Inconvénients
- Diminution de la mortalité ou de la
- Risque de faux négatifs (faux réconfort)
morbidité
- Risque de faux positifs (inquiétude et examens de
- Traitements moins lourds
confirmation inutiles voire dangereux)
- Réconfort des sujets négatifs
- Risques iatrogéniques des tests diagnostiques et
des traitements après dépistage
- Allongement de la période de maladie (marquage)
2.5.2.3 Maladies candidates au dépistage
Toutes les maladies ne sont pas de bonnes candidates au dépistage car les désagréments
et les coûts liés au test peuvent en limiter l’utilité
•
Le traitement doit être plus efficace au stade où la maladie est dépistée
Révéler la maladie aux sujets dépistés peut avoir des conséquences psychologiques
et sociales importantes. S’il n’y a pas de traitement efficace disponible, le dépistage
n’aura pour effet que d’étiqueter les sujets malades sans qu’il y ait plus de bénéfices
que lorsque la maladie est découverte naturellement au cours de son évolution.
•
Le gain de temps sur l’évolution de la maladie doit se traduire en gain de survie ou de
qualité de vie
La figure 27 représente la situation où un bénéfice est retiré suite à un test de
dépistage.
Si aucun traitement efficace n’est prodigué, le dépistage allonge la durée de la
maladie car sa découverte est plus précoce mais son évolution n’est pas modifiée. C’est la
situation « dépistage inefficace », aucun bénéfice pour le sujet ni pour la société n’en est
retiré, voire même, le phénomène d’ « étiquetage » évoqué ci-dessus peut avoir des
conséquences délétères.
Faculté de médecine Paris Descartes
Page 141
Enseignement de Lecture Critique d’Article
En revanche, un dépistage efficace se traduira par une avance au diagnostic permettant
l’administration d’un traitement et l’augmentation de la survie du patient, la diminution de la
durée de la maladie et/ou une augmentation de sa qualité de vie.
Figure 27 : Evaluation d’un bénéfice lié au dépistage
Un dépistage efficace permet une avance au diagnostic qui s’accompagne d’une
guérison.
2.5.2.4 Test disponible pour le dépistage
•
Propriétés métrologiques satisfaisantes
Le but du dépistage est d’identifier le maximum de malades afin de leur faire bénéficier au
plus tôt du traitement. Un minimum de faux résultats négatifs par le test doit donc être exigé.
Les qualités métrologiques habituellement exigées pour un test de dépistage sont donc une
bonne valeur prédictive négative (si le test est négatif, la probabilité d’absence de maladie
est élévée) et donc une bonne sensibilité.
Faculté de médecine Paris Descartes
Page 142
Enseignement de Lecture Critique d’Article
La valeur de la spécificité du test est aussi à prendre en compte, en particulier lorsque la
maladie est rare et que les tests diagnostiques qui suivront un résultat positif du test de
dépistage sont invasifs ou dangereux (un minimum de faux positifs doivent être exposés à
ces tests).
•
Acceptabilité, simplicité et coût
L’acceptabilité du test par les différents acteurs d’une procédure de dépistage doit
être évaluée. S’il est trop douloureux, le test peut être redouté par les sujets. S’il est trop
compliqué à mettre en œuvre, c’est le personnel soignant qui peut hésiter à le systématiser.
Si le coût est trop important, c’est au niveau des décideurs et de la société en général que la
réflexion sur sa prise en charge peut ralentir son adoption. Toutes ces propriétés sont
importantes à évaluer car elles doivent être réunies afin d’assurer la réussite d’un
programme de dépistage.
2.5.3 Formulation de l’objectif
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO où le P représente la population concernée; le E, la procédure
de dépistage évaluée; le C, est l’absence de dépistage et le O, le critère de jugement.
Par exemple, évaluer l’efficacité d’un dépistage organisé par frottis cervico-vaginal (I) par
rapport à une absence de dépistage organisé (C) en termes de mortalité (O) chez les
femmes de 25 à 65 ans (P).
2.5.4 Type d’étude
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une procédure de
dépistage car il permet de limiter les biais et apporte (en théorie) le niveau de preuve
scientifique le plus élevé.
Faculté de médecine Paris Descartes
Page 143
Enseignement de Lecture Critique d’Article
Figure 28 : Schéma d’un essai contrôlé randomisé évaluant le bénéfice d’un dépistage
organisé
2.5.5 Points à évaluer
Les notions précédemment vues dans les essais contrôlés randomisés s’appliquent ici
également.
Il faudra accorder une attention particulière aux points suivants :
-
Qualité de la randomisation
-
Critère de jugement principal : pertinence clinique ? subjectivité ? mode d’évaluation ?
-
Analyse en intention de dépister : la même chose que l’analyse en intention de traiter
mais pour une procédure de dépistage c'est-à-dire l’analyse de tous les patients
randomisés dans le groupe dans lequel ils ont été randomisés quel que soit leur suivi,
leur compliance et l’intervention qu’ils ont effectivement reçue. L’analyse en intention de
dépister est le reflet de l’impact de la procédure de dépistage organisé dans la vraie vie
Faculté de médecine Paris Descartes
Page 144
Enseignement de Lecture Critique d’Article
car on sait très bien que tous les individus qui reçoivent une invitation pour un dépistage
organisé ne vont pas forcément le faire et que certains individus randomisés dans le
groupe absence de dépistage auront la procédure de dépistage dans le cadre d’un
dépistage dit opportuniste via leurs médecins.
-
Interprétation des résultats : Il faut évaluer si la différence est statistiquement significative
et si celle-ci est cliniquement pertinente. Pour cela, il faut considérer la réduction
absolue du risque et le nombre de sujets à dépister pour éviter un évènement.
Attention, il est normal que ce nombre soit plus élevé que dans un essai thérapeutique
classique car les sujets ne sont pas malades.
2.5.6 Biais spécifiques aux études d’évaluation d’une procédure de dépistage
•
Biais d’avance au diagnostic (lead time bias): la découverte précoce du cancer
augmente la durée de vie apparente. C’est la situation « dépistage inefficace » de la
figure 27 où les sujets n’ont pas une durée de survie globale augmentée mais se
savent malades pendant plus longtemps.
•
Biais de sélection des formes lentes (length time bias) : le dépistage trouve plus
souvent les tumeurs de croissance lente que les tumeurs les plus agressives. Les
résultats d’une étude pourront être influencés par la périodicité des tests de
dépistage lorsque les deux formes de tumeurs existent (figure 28)
•
Surdiagnostic : certaines tumeurs évoluent plus lentement que ne surviennent les
autres maladies et ne se seraient jamais manifestées (découvertes lors d’autopsie)
Faculté de médecine Paris Descartes
Page 145
Enseignement de Lecture Critique d’Article
Figure 29 : Influence de la durée d’évolution de la maladie et de la périodicité du dépistage
2.5.7 Critères justifiant la mise en place d’un dépistage organisé
Pour faire l’objet d’un dépistage organisé, plusieurs critères doivent être réunis :
-
La maladie doit être un problème de santé publique par sa fréquence, sa sévérité ou son
impact socio-économique.
-
L’histoire naturelle de la maladie doit être bien connue
-
La maladie doit pouvoir être détectée pendant sa phase de latence asymptomatique
-
Il n’existe pas de facteurs de risque accessibles à la prévention primaire
-
Il doit exister un test de dépistage (en phase précoce de la maladie) ayant une forte
sensibilité et une forte spécificité
Faculté de médecine Paris Descartes
Page 146
Enseignement de Lecture Critique d’Article
-
Le test de dépistage doit être simple à utiliser et avoir une bonne acceptabilité par les
patients et les professionnels
-
Les intervalles de répétition du test doivent être connus
-
La précocité du traitement doit être démontrée comme un facteur de bon pronostic
-
Les moyens appropriés de diagnostic et de traitement sont disponibles
-
Le coût du dépistage (y compris le diagnostic et le traitement) ne doit pas être
disproportionné par rapport au coût global des soins médicaux
-
Le programme de dépistage doit avoir fait la preuve de son efficacité avec des essais
contrôlés randomisés
-
Les moyens existent pour réaliser le programme de dépistage de façon continue et pour
faire face aux charges supplémentaires induites par la pratique du test.
Les risques physiques et psychologiques du dépistage doivent être démontrés inférieurs aux
bénéfices obtenus
Faculté de médecine Paris Descartes
Page 147
Enseignement de Lecture Critique d’Article
Glossaire
Ce glossaire reprend les définitions du glossaire du CNCI, que nous avons complétées avec
des termes qui nous semblaient importants. Les définitions sont issues chaque fois que
possible d’un ouvrage de référence, indiqué entre parenthèses à la fin de chaque définition.
Les sources utilisées sont les suivantes :
1. Glossaire du CNCI
2. Glossaire Cochrane (http://www.cochrane.org/glossary/)
3. Bouyer J, Hémon D, Cordier S, Derriennic F, Stücker I, Stengel B, Clavel J.
Epidémiologie - Principes et méthodes quantitatives. Lavoisier; 1995.
4. Cucherat M, Lièvre M, Leizorovicz A, Boissel JP. Lecture critique et interprétation des
résultats des essais cliniques pour la pratique médicale. Paris: Flammarion; 2004.
5. Guyatt G, Rennie D, Meade M, Cook D. User’s guides to the medical literature: a
manual for evidence-based clinical practice, Second edition. JAMA & Archives
Journals; 2008.
6. Salmi LR. Lecture critique et communication médicale scientifique. Elsevier; 2007.
Faculté de médecine Paris Descartes
Page 148
Enseignement de Lecture Critique d’Article
Ajustement
Définition : Moyen, dans une enquête épidémiologique, de prendre en compte un
biais de confusion au moment de l'analyse.(1)
En Anglais : adjustment for…, control for…
Aléatoire
Définition : Dont la survenue dépend du hasard. La répartition aléatoire d'un
traitement ou d'une action fait confiance au hasard. On admet que les groupes de
sujets tirés au sort sont comparables pour tous les facteurs connus ou inconnus, qui
pourraient influencer sur le critère que l'on mesure. Souvent, cette hypothèse de
comparabilité des groupes est vérifiée numériquement lors de l'analyse des
résultats.(1)
En Anglais : random, randomly (faux amis : ce n'est pas forcément de la
randomisation !)
Alpha
Analyse
Voir aussi : randomisation
Voir risque Alpha
Définition : Extraction et exploitation de résultats pertinents à partir d'une série de
données. Le type d'analyse doit être prévu a priori dans le protocole de l'étude. Elle
prendra en compte la question posée, les critères de jugement utilisés et d'autres
variables, appelées covariables, qui peuvent interférer avec les critères de jugement.
C'est en fonction du type de variables étudiées (qualitatives, nominales, ordinales ou
quantitatives) que pourra se faire le choix des tests utilisés pour cette analyse.(1)
Analyse de survie Voir survie
En Anglais : survival analysis
Analyse en
intention de
traiter
Définition : Méthode qui consiste à analyser les données de tout patient inclus (voir
inclusion), et ce dans le « bras » (groupe de tirage au sort) dans lequel il a été
randomisé au début de l'étude.(1)
En Anglais : intention to treat analysis
Voir aussi : analyse per protocole, échantillon analysé
Analyse
intermédiaire
Définition : Analyse effectuée avant l'inclusion de tous les sujets prévus. Elle est
réalisée le plus souvent lorsque l'étude est longue ou s’il existe un risque pour le
patient. Elle doit être prévue dans le protocole, et le nombre de sujets nécessaires
prend en compte le nombre d'analyses intermédiaires qui sont prévues. Pour chaque
analyse intermédiaire, un seuil de signification doit être choisi.(1)
En Anglais : interim analysis
Faculté de médecine Paris Descartes
Page 149
Enseignement de Lecture Critique d’Article
Analyse par
sous-groupe
Définition : Analyse qui, à partir des données initiales globales, permet de mettre en
avant la différence de traitement entre divers sous-groupes au cours d'un essai
thérapeutique. Attention! Si l'analyse par sous-groupe semble attrayante, elle peut être
erronée si elle n'a pas été prévue explicitement au départ dans le protocole et si
l’étude ne conclut pas positivement sur le critère principal. En effet, même s'il n'existe
pas de différence entre deux traitements, on pourra très souvent trouver un sousgroupe particulier où une différence est significative.(1)
Synonyme(s) : analyse stratifiée
En Anglais : subgroup analysis, stratified analysis
Voir aussi : stratification
Analyse per
protocole
Définition : Analyse du sous-ensemble de sujets d'un essai contrôlé randomisé ayant
suffisamment respecté le protocole pour que leurs données soient susceptibles de
représenter l'effet du traitement. Ce sous-ensemble peut être défini après avoir
considéré l'exposition au traitement, la disponibilité d'une mesure de l'événement
d'intérêt et l'absence d'écart majeur au protocole. La stratégie d'analyse per protocole
est susceptible d'entraîner des biais car les raisons pour lesquelles le protocole n'a
pas été respecté peuvent être liées au traitement.(2)
En Anglais : per protocol analysis
Voir aussi : analyse en intention de traiter, échantillon analysé
Analyse stratifiée Voir analyse par sous-groupe
En Anglais : stratified analysis
Appariement
Définition : Technique permettant de rendre comparables deux ou plusieurs groupes,
en particulier par rapport à certains facteurs de confusion déjà connus dont on veut
neutraliser les effets, (voir apparier).(1)
En Anglais : match, pair
Voir aussi : apparier
Apparier (former
des paires)
Définition : Rendre comparables deux groupes en termes de facteurs de confusion
potentiels. Pour chaque cas (exemple : un malade), on associe un ou plusieurs
témoins qui lui sont similaires pour un ou plusieurs facteurs (exemple : âge, sexe,
niveau socio-économique).(1)
En Anglais : to match, to pair
Assignation
secrète
Bêta
Biais
Voir aussi : appariement
Voir masquage de l'allocation des traitements
Voir Risque bêta
Définition : Erreur systématique qui fausse les résultats dans un sens donné. On
distingue trois grandes familles de biais : les biais de sélection, de classement et de
confusion.(1)
En Anglais : bias
Faculté de médecine Paris Descartes
Page 150
Enseignement de Lecture Critique d’Article
Biais d’attrition
Définition : Différences systématiques entre les groupes de comparaison dans les
sorties d'étude ou les exclusions de sujets de l'analyse. Par exemple, les sujets
peuvent se retirer d'une étude en raison d'effets secondaires d'une intervention, et
l'exclusion de ces sujets de l'analyse pourrait entraîner une surestimation de
l'efficacité de l'intervention, en particulier lorsque la proportion de sujets sortant de
l'étude varie selon les groupes de traitement.(2)
Commentaire(s) : On ne parle de biais d'attrition que dans les études longitudinales
(cohortes, essai thérapeutique) car la notion d'attrition sous-entend que les sujets sont
exclus ou perdus de vue au cours de leur suivi au sein de l'étude.
En Anglais : attrition bias
Voir aussi : biais de sélection, perdu de vue
Biais
d’information
Voir biais de classement
En Anglais : information bias
Biais de
classement
Définition : Biais dans la mesure du facteur de risque ou dans la certitude de la
maladie. Cette erreur est quasi inévitable puisqu'aucun outil de mesure (interrogatoire,
examen, test) n'est parfait. Exemple : un comportement à risque minimisé par le
malade, ou simplement non recherché dans le questionnaire.(1)
Synonyme(s) : biais d'information, biais de mesure
En Anglais : information bias, measurement bias
Biais de
confusion
Définition : Biais provoqué par un facteur de confusion interagissant avec le facteur
de risque étudié dans l'étude du lien entre ce facteur et la maladie.(1)
Biais de
mémorisation
Définition : Type de biais de classement lorsque l'information sur l'exposition a été
obtenue a posteriori après que le diagnostic des cas a été établi (cas-témoin).(1)
En Anglais : memory bias
Voir aussi : biais de classement
Biais de mesure
Voir biais de classement
En Anglais : measurement bias
Biais de
performance
Définition : Dans une étude interventionnelle, différences systématiques entre les
groupes comparés en matière de soins fournis en dehors de l'intervention évaluée.
Par exemple, si les sujets savent qu'ils sont dans le groupe de contrôle, ils peuvent
être plus susceptibles d'utiliser d'autres formes de soins. Si les soignants sont
conscients du groupe auquel appartient un sujet en particulier, ils pourraient agir
différemment. L'aveugle des participants à l'étude (les sujets et les soignants) permet
de prévenir le biais de performance.(2)
En Anglais : performance bias
Voir aussi : biais de classement
Faculté de médecine Paris Descartes
Page 151
Enseignement de Lecture Critique d’Article
Biais de sélection Définition : Biais dans la constitution de l'échantillon, qui va se retrouver non
représentatif de la population générale pour des facteurs liés au problème étudié (d'où
le biais).(1)
En Anglais : selection bias
Biais maximal
Voir aussi : représentatif
Voir hypothèse du biais maximal
En Anglais : maximum bias
Bilatéral
Définition : Qui prend comme hypothèse alternative l'existence d'une différence. Un
test statistique est bilatéral si on suppose qu'il existe une différence, dans un sens ou
dans l'autre.(1)
En Anglais : bilateral
Cas-témoins
Voir Enquête (ou étude) Cas-Témoin
En Anglais : case-control
Cas-témoins
niché dans une
cohorte
Voir étude cas-témoins nichée dans une cohorte
Causalité
Définition : Rapport établi entre une cause et un effet, un facteur de risque et une
maladie. Le facteur étudié est responsable (au moins en partie) de la maladie étudiée.
(1)
CCPPRB - CPP
Censure
En Anglais : case-control study nested in a cohort, nested case-control study
En Anglais : causality
Définition : Comité consultatif de Protection des personnes se prêtant à la recherche
biomédicale. Tous les protocoles de recherche clinique doivent être soumis au
CCPPRB pour avis. Ce comité informe de son avis l'investigateur qui lui a présenté la
demande. Les études épidémiologiques sans investigations invasives sortent de ce
champ. Les nouveaux textes l'ont renommé en CPP, Comité de protection des
personnes. (1)
Définition : [En analyse de survie :] Terme utilisé dans les études où le paramètre
étudié est le temps avant la survenue d'un événement particulier, pour décrire les
données de patients dont le résultat est inconnu. On peut savoir qu'un patient n'a pas
présenté l'événement jusqu'à un point donné dans le temps, de sorte que "le temps de
survie" (c'est-à-dire de non-survenue de l'événement) est censuré à ce point.(2)
Commentaire(s) : On ne sait pas quand le patient a présenté l'événement mais on
sait que sur la période T il ne l'a pas présenté. Le temps de survie est censuré à la fin
de la période T.
En Anglais : censoring
Voir aussi : survie
Clause
d'ambivalence
Définition : Tout patient inclus dans un essai thérapeutique doit pouvoir recevoir
n’importe lequel des traitements étudiés, et donc il ne doit avoir aucune contreindication à l’un ou l’autre des traitements. (1)
Faculté de médecine Paris Descartes
Page 152
Enseignement de Lecture Critique d’Article
Clause
d'ignorance
Coefficient de
corrélation
Définition : Fait de ne pas révéler à un patient l’intervention qu'il va recevoir dans un
essai thérapeutique avant son entrée dans l’essai, et pour un médecin qui inclut un
patient dans l’essai, de ne pas pouvoir prévoir quelle intervention ce patient va
recevoir. Sinon, l'inclusion des patients dans l'essai risque d'être influencée par la
conviction intime du médecin de l'efficacité de l'un ou l'autre traitement réellement
efficace. Une randomisation centralisée, des enveloppes scellées et opaques ou une
préparation du médicament dans des containers identiques par un pharmacien permet
de respecter la clause d’ignorance(1)
Définition : Paramètre mesurant l'association linéaire entre deux variables. Un
coefficient de corrélation peut varier de -1 pour une corrélation négative parfaite, à +1
pour une corrélation positive parfaite ("parfaite" signifiant que tous les points sont
situés sur une ligne droite). Un coefficient de corrélation de 0 signifie qu'il n'y a pas de
relation linéaire entre les variables.(2)
Commentaire(s) :
Le coefficient de corrélation mesure l'association entre 2 variables quantitatives.
Si l'on représente graphiquement Y en fonction de X (par exemple le taux
d'hémoglobine en fonction du temps ou le taux de LDL cholestérol en fonction du
poids), le coefficient de corrélation correspond à la pente de la droite passant au plus
près de l'ensemble des points.
Le coefficient de corrélation peut être estimé dans un modèle de régression linéaire.
En Anglais : correlation coefficient
Coefficient kappa Définition : Mesure de la concordance entre deux mesures, faites par exemple par
deux observateurs. Le coefficient kappa prend en compte le fait que les deux mesures
peuvent être concordante uniquement par chance, c'est un coefficient de concordance
"corrigé de la chance". Il est compris entre -1 (désaccord absolu) et +1 (accord
absolu), la valeur 0 correspondant au degré d’accord attendu du seul fait du hasard.(3)
Commentaire(s) : Le coefficient kappa mesure la reproductibilité d'une mesure. Il est
utilisé notamment pour juger de la fiabilité d'un test diagnostique, ou pour comparer la
reproductibilité inter-opérateur (fiabilité de la lecture de radiographies du thorax ou de
lames d'anatomo-pathologie par exemple).
En Anglais : kappa coefficient
Cohorte de sujets Définition : Groupe de personnes suivies dans le temps de manière prospective. (1)
En Anglais : cohort
Faculté de médecine Paris Descartes
Page 153
Enseignement de Lecture Critique d’Article
Cohorte
historique
Définition : Une étude de cohorte rétrospective (ou historique) identifie les sujets à
partir de dossiers antérieurs et les suit jusqu'au moment auquel l'étude est réalisée. La
cohorte d'individus et le suivi sont reconstitués à partir d'informations anciennes
disponibles ou recherchées au moment où l'étude est envisagée.(2,6)
Commentaire(s) : Du fait de la reconstitution rétrospective du suivi à partir des
dossiers et/ou de l'interrogatoire du patient, des biais sont susceptibles de fausser les
résultats (biais de sélection lié à des dossiers non retrouvés, biais de mesure liés à
des informations manquantes dans les dossiers, etc.)
Synonyme(s) : cohorte rétrospective
En Anglais : historical cohort, retrospective cohort
Cohorte
rétrospective
Voir cohorte historique
En Anglais : retrospective cohort
Comité
d’adjudication
Définition : Comité composé d’experts cliniques dans le domaine médical concerné
dont le but est d’harmoniser et de standardiser l’évaluation des critères de jugement.
Commentaire(s) : Recommandé par la FDA et l’EMA :
– Critères de jugement subjectifs
– Absence d’aveugle
Utile en cas d’essais multicentriques internationaux pour harmoniser l’évaluation des
critères de jugement.
Synonyme(s) : comité des évènements cliniques, comité
des évènements critiques
En Anglais : adjudication comittee
Voir aussi : observateur aveugle
Comité d'éthique
Comparabilité
des groupes
Définition : Groupe national d'experts composé de médecins, de juristes, de
philosophes, etc. en France. Il donne son avis sur des questions d'éthique d'ordre
général. (1)
En Anglais : équivalent : IRB - institutional review board
Définition : C'est l'un des critères de qualité dans les essais cliniques. C'est une
condition nécessaire pour que seul le traitement influence le critère de jugement et
que les changements observés soient imputables à la nouvelle thérapeutique testée.
La randomisation permet, en théorie, de constituer des groupes comparables. (1)
Voir aussi : randomisation
Confusion
Voir biais de confusion
En Anglais : confusion
Faculté de médecine Paris Descartes
Page 154
Enseignement de Lecture Critique d’Article
Consentement
éclairé
Définition : Document écrit spécifiant les risques encourus par un patient, signé par
lui, et dans lequel il est impérativement spécifié que le malade a le droit d'arrêter à tout
moment de participer à l'étude, sans conséquence pour la poursuite des soins, dans le
cadre d'une étude de recherche clinique soumise à la loi Huriet-Serusclat. Le médecin
doit donc expliquer clairement et simplement les avantages et inconvénients de la
participation à l'essai, et garde le consentement signé dans le dossier du patient
(celui-ci en garde un double). (1)
En Anglais : informed consent
Courbe de survie
Voir Survie (courbe de)
En Anglais : survival curve
Courbe de survie
actuarielle
Voir Survie (courbe de)
En Anglais : actuarial survival curve
Courbe de survie
de Kaplan-Meïer
Voir Survie (courbe de)
En Anglais : Kaplan Meier survival curve
Cox
Voir modèle de Cox
Critère de
jugement
Définition : Critère qui permet de mesurer l'effet du traitement dans un essai
thérapeutique ou la survenue d'un événement dans une étude épidémiologique.
L'idéal est d'avoir un seul critère de jugement, dit «critère de jugement principal». (1)
Synonyme(s) : critère d'évaluation
En Anglais : outcome, endpoint
Critères
d’éligibilité
Définition : Critères définissant quels sujets devront être inclus (critères d'inclusion)
ou non (critères de non-inclusion) dans l'étude. Les sujets répondant à ces critères
sont les sujets éligibles pour l'étude.
Voir aussi : sujets éligibles, inclusion (critères d'), non-inclusion (critères de),
exclusion (critères d')
Critères
d’exclusion
Critères de Hill
En Anglais : Eligibility criteria
Voir exclusion (critères d')
Définition : Eléments pouvant être étudiés pour éprouver le caractère causal d'une
association entre facteur de risque et maladie ou pour quantifier les risques associés à
différentes conditions d'exposition dans différentes populations.(3)
En Anglais : Hill's criteria
Voir aussi : causalité
Faculté de médecine Paris Descartes
Page 155
Enseignement de Lecture Critique d’Article
Cross-Over
Définition : Essai thérapeutique où le sujet est pris comme son propre témoin. Un
groupe de patients reçoit le traitement A puis le traitement B, l'autre groupe de
patients reçoit le traitement B puis le traitement A.(1)
En Anglais : cross-over
Degré de
signification
Définition : Risque (au sens de pari) de se tromper lorsque l'on conclut à une
différence dans un test statistique, la plupart des tests étant construits pour mettre en
évidence une différence. Lorsqu'on fait un test statistique, le logiciel donne le résultat
du test mais surtout le « p » ou degré de signification. Le risque d'erreur considéré
comme acceptable est le seuil de signification. Classiquement, le risque d'erreur
acceptable est inférieur à 5 %. Donc, si p < 0,05, on a moins de 5 % de chances de se
tromper en concluant à une différence, on dit que la différence est significative. Pour p
= 0,05, si on répétait cent fois l'expérience, on pourrait trouver une différence
significative cinq fois par hasard .(1)
Synonyme(s) : p value, valeur de p
En Anglais : significance level, p-value
Voir aussi : valeur de p
Densité
d'Incidence
Dépistage
Définition : Nombre de nouveaux cas d'une maladie, survenus au cours d'une
période donnée, rapporté au nombre d'unités personne-temps exposées au risque
dans la population. (1)
En Anglais : incidence density
Définition : Identification de sujets malades à un stade asymptomatique ou peu
évolué facilement curable, ou de sujets chez qui on suspecte fortement la maladie et
chez qui il est licite de procéder à des explorations plus ou moins invasives et
coûteuses qui confirmeront ou infirmeront le diagnostic. (1)
En Anglais : screening, detection
Design
Diagramme de
flux
Voir type d'étude
Voir flow chart
En Anglais : flow chart
Diagramme de
ventilation
Voir flow chart
En Anglais : flow chart
Données
censurées
Voir censure
En Anglais : censored data
Dose-effet
(relation doseeffet)
Double aveugle
Définition : Il existe une relation dose-effet, en épidémiologie, lorsque le risque lié à
un facteur varie en fonction de l'intensité de l'exposition (c'est-à-dire : plus l'exposition
est grande, plus l'incidence est élevée). Pour ce qui concerne les médicaments, il
existe une relation dose-effet lorsque l'effet du médicament varie en fonction de la
dose reçue. Cette variation a, en général, une certaine forme: linéaire,
exponentielle.(1)
En Anglais : dose-effect
Voir essai en double aveugle
En Anglais : double-blind
Faculté de médecine Paris Descartes
Page 156
Enseignement de Lecture Critique d’Article
Double placebo
Écart au
protocole
Échantillon
Définition : Dans un essai thérapeutique au cours duquel deux médicaments sont
comparés, il est idéal qu’ils soient identiques sur le plan galénique et sur celui du
mode d'administration (posologie). Quand ce n'est pas possible, il faut prévoir que les
patients recevant A prennent aussi un placebo de B ; et que les patients recevant B
prennent aussi un placebo de A.(1)
En Anglais : double placebo, double dummy
Définition : Ensemble de situations où le protocole n'a pas été suivi scrupuleusement.
Il faut le mentionner lors de la restitution des résultats et dire comment cela a été pris
en compte dans l'analyse, en expliquant quelle influence peuvent avoir eu ces écarts
sur les résultats observés.(1)
Définition : Partie de la population sur laquelle on va travailler. L'échantillon est
représentatif pour un caractère, si ce caractère se distribue identiquement dans
l'échantillon et dans la population globale. Un échantillon aléatoire de taille
conséquente (loi des grands nombres) est supposé représentatif (on fait confiance au
hasard).(1)
En Anglais : sample
Échantillon
analysé
Voir aussi : echantillon analysé
Définition : Sujets effectivement pris en compte dans l'analyse statistique et qui
contribuent à l'estimation de l'effet traitement ou de l'association étudiée. Ces sujets
doivent être les mêmes que les patients randomisés pour éviter un biais d'attrition.(4)
Synonyme(s) : patients évalués, patients analysables, patients analysés, population
d'analyse
En Anglais : analyzed sample, analyzable patients
Voir aussi : echantillon, analyse en intention de traiter, analyse per protocole
Effet carry over
Effet nocebo
Définition : Poursuite de l'effet d'un médicament après son arrêt, et dépendant de la
demi-vie du médicament : lorsqu'un patient prend un médicament, et qu'il n'interrompt
pas assez tôt la prise du médicament, l'effet de celui-ci peut se poursuivre et interférer
avec le médicament testé, d’où l’utilité d’une période préalable plus ou moins longue
sans traitement (wash out).(1)
En Anglais : carry over effect
Définition : Effet négatif de la prise d'un médicament qui n'est pas lié aux propriétés
physico-chimiques de la molécule, mais au fait même que l'on prend un traitement
(effet psychologique).(1)
En Anglais : nocebo effect
Effet placebo
Définition : Effet positif de la prise d'un médicament qui n'est pas lié aux propriétés
physico-chimiques de la molécule, mais au fait même que l'on prend un traitement
(effet psychologique).(1)
En Anglais : placebo effect
Faculté de médecine Paris Descartes
Page 157
Enseignement de Lecture Critique d’Article
Éligibilité
Voir Sujets éligibles, critères d'éligibilité
En Anglais : eligibility
Enquête (ou
étude) CasTémoin
Définition : Enquête rétrospective dans laquelle on interroge comparativement des
malades (cas) et des non malades (témoins) sur leurs expositions dans le passé à des
facteurs de risque. Les liens entre expositions et maladies (la mesure du risque de
survenue de la maladie lié à l'exposition) sont résumés par des odds ratios et leurs
intervalles de confiance.(1)
En Anglais : case-control study
Enquête casDéfinition : Enquête cas-témoins pour laquelle la population dont sont issus les cas et
témoins nichée
les témoins est constituée des sujets d'une cohorte suivie par ailleurs.(3)
dans une cohorte
Synonyme(s) : enquête cas-témoins dans une cohorte, "étude cas-témoins nichée"
En Anglais : case-control study nested in a cohort, nested case-control study
Voir aussi : Enquête (ou étude) Cas-Témoin, enquête de cohorte
Enquête de
cohorte
Définition : Enquête prospective dans laquelle on suit l'évolution de sujets dont on a
relevé initialement l'exposition à des facteurs pour lesquels on veut étudier l'effet sur la
santé.(1)
En Anglais : cohort study
Voir aussi : étude épidémiologique prospective, prospectif
Enquête exposés, Définition : Enquête prospective dans laquelle on suit un groupe de sujets exposés à
non exposés
un facteur de risque et un groupe de sujets non exposés.(1)
En Anglais : exposed non-exposed study
Enquête
longitudinale
Définition : Enquête au cours de laquelle des informations sont recueillies de façon
longitudinale, c'est-à-dire de manière répétée dans le temps. La durée de l'étude est
définie et peut être assez longue (plusieurs années). Elle peut être prospective ou
rétrospective.(1)
Commentaire(s) : Il s'agit par exemple d'une enquête de cohorte ou d’un essai
contrôlé randomisé.
Enquête
transversale
En Anglais : longitudinal study
Définition : Enquête qui consiste à recueillir simultanément ou quasi simultanément
les données relatives à la maladie et aux facteurs de risques étudiés. Les sujets ne
sont pas suivis dans le temps(1)
Epidémie
En Anglais : cross-sectional study
Définition : Augmentation de la fréquence d'une maladie dans une population donnée
et à un moment donné, par rapport à ce qui serait attendu en situation normale.(1)
En Anglais : outbreak
Faculté de médecine Paris Descartes
Page 158
Enseignement de Lecture Critique d’Article
Epidémiologie
Équilibre (tirage
au sort)
Définition : Étude de la distribution des problèmes de santé et des facteurs qui les
influencent. On distingue classiquement épidémiologie descriptive, analytique et
évaluative(1)
En Anglais : epidemiology
Définition : Tirage au sort défini dans le protocole par le fait que pour tous les « n »
patients (par exemple, tous les six patients), le nombre de patients recevant le
médicament A (trois patients) et le médicament B (trois patients) est le même.(1)
Voir aussi : randomisation par blocs
Equivalence
Essai clinique
Définition : Démonstration que deux traitements sont équivalents dans certains
essais thérapeutiques spécifiques. La méthodologie est différente des essais
classiques dits « essais d'efficacité » (dans les essais classiques, on cherche à mettre
en évidence une différence). Les essais d'équivalence nécessitent des hypothèses et
des tests statistiques particuliers.(1)
En Anglais : equivalence
Définition : Étude expérimentale mise en place pour comparer un nouveau traitement
au traitement de référence quand il existe, ou à un placebo. Le traitement peut être
curatif (le plus souvent) ou préventif. Dans cette définition, le mot : « traitement » peut
également s'entendre au sens de stratégie thérapeutique.(1)
En Anglais : clinical trial
Essai contrôlé
Définition : Essai dans lequel il y a un groupe considéré comme témoin et un groupe
de sujets traités.(1)
Commentaire(s) : Un essai contrôlé n'est pas toujours randomisé. On parle alors
d'essai quasi-expérimental.
En Anglais : controlled trial
Voir aussi : essai contrôlé randomisé
Essai contrôlé
randomisé
Définition : Expérience dans laquelle les individus vont, de manière aléatoire, recevoir
ou non une intervention, qui peut être une procédure diagnostique, préventive,
thérapeutique ou palliative, puis être suivis afin de déterminer l'effet de
l'intervention.(5)
Commentaire(s) :
Le type de contrôle dépend du protocole de l'étude : pas d'intervention, administration
d'un placebo, traitement de référence...
Le contrôle initial est obtenu par la randomisation, le maintien du contrôle au cours de
l’étude est obtenu par le double aveugle et l’analyse en intention de traiter.
En Anglais : randomized controlled trial
Essai de phase I
Voir aussi : essai contrôlé, randomisation
Définition : Ces essais portent sur des volontaires sains. L'étude sert à déterminer la
dose maximale tolérée. Elle sert aussi à étudier la cinétique du produit et à calculer les
doses qui seront administrées au malade en phase II.(1)
Faculté de médecine Paris Descartes
Page 159
Enseignement de Lecture Critique d’Article
Essai de phase II
Définition : Ces essais portent sur des malades volontaires. Cette phase a pour but
d'étudier l'efficacité pharmacologique du produit et de déterminer la dose optimale
pour la phase III.(1)
Essai de phase III Définition : Cette phase correspond, aux essais thérapeutiques comparatifs. Au cours
de cette phase d'étude de l'efficacité d'un traitement, on recherche la dose pour
laquelle le rapport efficacité/ tolérance est le meilleur et on définit le schéma
posologique.(1)
Essai de phase IV Définition : Tout essai thérapeutique réalisé après la commercialisation d'un
médicament. Il s'agit principalement d'essais de pharmacovigilance ou d'essais
comparatifs pour glissement d'indication (indications non encore autorisées par
l'AMM).(1)
Essai de
prévention
Définition : Étude expérimentale, ou quasi expérimentale, mise en place pour évaluer
l'efficacité d'une action de prévention. Ces essais se font chez des personnes saines
(prévention primaire) ou malades (prévention secondaire).(1)
Essai d'efficacité
Définition : Mise en évidence d'une différence dans un essai thérapeutique où, le plus
souvent, le but est de montrer l'efficacité d'un traitement par rapport à un placebo ou
au traitement de référence.(1)
Essai en double
aveugle
Définition : Essai au cours duquel, ni le patient, ni le médecin ne connaissent le
traitement pris. Cela permet d'éliminer l'effet placebo chez le patient et les biais de
performance et de mesure liés à la subjectivité du médecin. Dans l'essai en triple
aveugle, le chercheur qui analyse les résultats ne sait pas quel groupe de patients a
reçu quel type de traitement.(1)
En Anglais : double-blind study
Essai en simple
aveugle
Voir aussi : insu
Définition : Essai au cours duquel le patient ne connaît pas le traitement qu'il reçoit.
Le médecin connaît le traitement que chaque patient reçoit. Cela permet normalement
de neutraliser les effets placebo et nocebo. Syn. : essai en simple insu.(1)
En Anglais : simple blind study
Essai ouvert
Essai séquentiel
Essai
thérapeutique
Définition : Essai thérapeutique souvent mené sur un petit groupe de sujets, parfois
comparatif, permettant d'étudier la faisabilité d'un essai comparatif à plus grande
échelle.(1)
On peut aussi parler d’essai en ouvert quand il n’y a pas d’aveugle.
En Anglais : open-label study
Définition : Essai thérapeutique dont l'analyse est effectuée régulièrement, au fur et à
mesure de l'inclusion et de l'évaluation du critère de jugement chez les sujets inclus
(tous les « n » sujets). Ce type d'analyse, par sa méthodologie particulière, permet de
maîtriser les risques d'erreurs statistiques de première et de seconde espèce.(1)
Définition : Essai permettant l'évaluation d'un médicament chez l'Homme.(1)
En Anglais : clinical trial
Faculté de médecine Paris Descartes
Page 160
Enseignement de Lecture Critique d’Article
Estimation
Définition : Méthode visant à obtenir une valeur approchée (estimée) pour un
paramètre, quand la vraie valeur est inaccessible (ce qui est le cas le plus fréquent).
Cette estimation doit être exacte (non biaisée) et précise (variance faible).(1)
En Anglais : estimation
Étude
épidémiologique
prospective
Définition : Étude épidémiologique au cours de laquelle le recueil d'informations
concernant les participants porte sur des événements postérieurs au début de
l'enquête et sur l'inclusion des participants.(1)
En Anglais : prospective epidemiological study
Voir aussi : cohorte, prospectif
Événement
Définition : Situation qui survient au cours de l'étude : guérison, aggravation de la
maladie (décompensation, hémorragie, etc.), rechute, décès.(1)
En Anglais : event
Exactitude
Définition : Qualité d'une mesure sans erreur systématique ou sans biais.(1)
En Anglais : accuracy
Voir aussi : biais
Exclusion (critère Définition : Ensemble d'éléments définis dans un protocole d'exclusion. Les patients
d'exclusion)
ayant tel ou tel critère ne peuvent pas participer à l’étude.(1)
Commentaire(s) : Attention, confusion fréquente avec les critères de non-inclusion, y
compris dans les articles. Cela n'invalide pas les résultats de l'étude (!) mais sachez
faire la différence entre les deux.
Les critères d'exclusion définissent, parmi les sujets inclus dans l'étude, lesquels
devront être exclus de l'analyse (survenue d'un événement particulier en cours d'étude
par exemple). Les critères de non-inclusion définissent les sujets qui ne doivent pas
entrer dans l'étude.
Dans la définition CNCI, lisez plutôt "Les patients ayant tel ou tel critère ne seront pas
analysés".
En Anglais : exclusion criteria
Voir aussi : sujets éligibles, critères d'éligibilité
Facteur
d’interaction
Voir interaction
Synonyme(s) : facteur modificateur
En Anglais : interaction factor
Facteur de risque Définition : Facteur augmentant ou diminuant le risque de maladie. Si le risque
diminue, on parle de facteur protecteur.(1)
En Anglais : risk factor
Facteur
d'exposition
Définition : Fait d'être exposé à un facteur (par exemple, exposé à l'amiante, exposé
aux colorants etc.).(1)
Synonyme(s) : exposition, intervention, facteur de risque…
En Anglais : exposition
Faculté de médecine Paris Descartes
Page 161
Enseignement de Lecture Critique d’Article
Facteur
intermédiaire
Définition : Facteur qui intervient comme une étape dans la chaîne qui relie un
facteur de risque et une maladie. La distinction entre facteur de risque indépendant et
facteur intermédiaire ne peut reposer que sur des arguments cliniques et biologiques.
Sur le plan statistique, on ne peut pas les distinguer.(3)
Commentaire(s) : Dans une recherche étiologique, il ne faut pas prendre en compte
un facteur intermédiaire car cela masquerait de façon artificielle l'association entre le
facteur de risque étudié et la maladie.
Facteur
pronostique
Définition : Facteur qui influence l'évolution d'une maladie, et qui entraîne plus
rapidement une complication ou un décès. Il peut être nécessaire, dans l'analyse d'un
essai thérapeutique (en particulier), d'ajuster sur les facteurs pronostiques connus si le
critère de jugement est l'évolution de la maladie (par exemple, décès).(1)
En Anglais : prognostic factor
Fiabilité
Définition : Le degré de reproductibilité des résultats obtenus par une procédure de
mesure. Le manque de fiabilité peut être lié à des divergences entre des observateurs
ou entre des instruments de mesure, à des erreur de mesure, ou à l'instabilité dans
l'attribut mesuré.(2)
Synonyme(s) : reproductibilité
En Anglais : reliability, reproductibility, consistency
Flow chart
Voir aussi : coefficient kappa
Définition : Figure représentant les flux de sujets dans une étude : nombre de
patients dont l'éligibilité a été évaluée, nombre de patients éligibles, nombre de
patients inclus (randomisés le cas échéant), nombre de patients analysés dans
chaque groupe de comparaison. A chaque étape, les raisons de non participation,
d'exclusion ou de sortie d'étude sont précisées ainsi que les effectifs correspondants.
Synonyme(s) : diagramme de flux, diagramme de ventilation
En Anglais : flow chart
Fluctuations
Définition : Variation des estimations effectuées à partir d'un échantillon de la
d’échantillonnage population d'un échantillon à l'autre. Les fluctuations d'échantillonnage diminuent à
mesure que la taille de l'échantillon augmente.(2)
Commentaire(s) : L'écart-type (ou son carré, la variance) d'un paramètre mesure la
variation de l'estimation du paramètre sur tous les échantillons possibles de la même
taille. On l'utilise pour calculer l'intervalle de confiance du paramètre estimé. Par
exemple, l'intervalle de confiance à 95% d'une moyenne µ est calculé ainsi : (µ - 1,96
x σ(µ) ; µ + 1,96 x σ(µ)) où σ(µ) est l'écart-type de µ. Quand le nombre de sujets
augmente, σ(µ) diminue et l'intervalle de confiance se rétrécit.
En Anglais : sampling fluctuations
Voir aussi : risque alpha, risque bêta, test statistique, intervalle de confiance
Faculté de médecine Paris Descartes
Page 162
Enseignement de Lecture Critique d’Article
Généralisabilité
Définition : Le degré de généralisabilité mesure à quel point les résultats peuvent
constituer une base correcte pour des généralisations à d'autres circonstances.(2)
Synonyme(s) : validité externe, applicabilité
En Anglais : generalisability
Gold Standard
Définition : Test diagnostique qu'on utilise comme référence (même si aucun test
n'est parfait). Dans une démarche diagnostique, c'est l'examen que l'on considère
comme donnant la meilleure certitude diagnostique.(1)
Synonyme(s) : test de reference
En Anglais : gold standard
Grade d’une
recommandation
Définition : Niveau de preuve sur lequel se base une recommandation pour la
pratique. Le grade doit être différencié de la force d'une recommandation (qui
représente à quel point la recommandation est recommandée, indépendamment de la
littérature existante sur le sujet).
Groupe contrôle
(groupe témoin)
Définition : Groupe qui reçoit le médicament de référence ou le placebo, par
opposition au groupe qui reçoit le nouveau médicament dans un essai thérapeutique
contrôlé.(1)
Synonyme(s) : groupe témoin
Groupe témoin
En Anglais : control group
Voir groupe contrôle
En Anglais : control group
Groupes
parallèles
Définition : Deux groupes de patients suivis en parallèle au cours d'un essai
thérapeutique contrôlé, dit : « essai en deux groupes parallèles », où il existe toujours
deux groupes au minimum : le groupe qui reçoit le nouveau médicament et le groupe
qui reçoit le médicament de référence ou le placebo.(1)
En Anglais : parallel groups
Hazard ratio
Définition : Mesure de la taille d'effet issue d'une analyse de survie. Le hazard ratio
représente l'augmentation du risque de présenter l'événement d'intérêt d'un groupe
par rapport à l'autre. Par exemple, si le hazard ratio du décès pour un traitement est
de 0,5, alors nous pouvons dire que les patients traités sont deux fois moins
susceptibles de mourir que les patients non traités.(2)
Commentaire(s) : Le hazard ratio est le rapport des risques instantanés dans chaque
groupe. Il est supposé constant au cours du temps dans le modèle de Cox.
Synonyme(s) : rapport des risques instantanés
En Anglais : hazard ratio
Hypothèse
Définition : Concept qui n'est pas encore démontré(1)
En Anglais : hypothesis
Faculté de médecine Paris Descartes
Page 163
Enseignement de Lecture Critique d’Article
Hypothèse du
biais maximal
Voir hypothèse du biais maximum
En Anglais : maximum bias hypothesis, maximum bias analysis
Analyse de
sensibilité
Définition : Analyse réalisée pour déterminer la sensibilité des résultats d'une étude à
des changements dans la façon dont cela a été fait. Les analyses de sensibilité sont
utilisées pour évaluer à quel point les résultats sont robustes par rapport à des
décisions incertaines ou des hypothèses qui ont été faites sur les données et les
méthodes utilisées.(2)
Commentaire(s) : Les analyses de sensibilité sont faites après l'analyse principale.
En pratique, on refait tout ou partie de l'analyse en modifiant certains points des
méthodes (autre définition du critère de jugement, autre modèle statistique, etc.) et on
regarde si les résultats sont modifiés ou non par cette manoeuvre.
Sensibilité
(analyse de)
Hypothèse du
biais maximum
En Anglais : sensitivity analysis
Voir analyse de sensibilité
Définition : Hypothèse dans laquelle on choisit de se situer, au moment de l'analyse,
dans la situation la plus défavorable, pour arriver à conclure à une différence.(1)
Synonyme(s) : analyse du biais maximum, hypothèse du biais maxima
En Anglais : maximum bias hypothesis, maximum bias analysis
Hypothèses d'un
test statistique
Incidence (taux
d')
Définition : En pratique, pour les tests statistiques, on utilise une hypothèse nulle (pas
de différence) et une hypothèse alternative (présence d'une différence). Le test
statistique est construit dans le but de rejeter l'hypothèse nulle, avec une certaine
probabilité d'erreur.(1)
En Anglais : null hypothesis, alternative hypothesis
Définition : Fréquence des cas nouveaux dans une période de temps donnée.(1)
En Anglais : incidence rate
Inclusion
(critères d')
Définition : Ensemble de critères qui définissent de façon précise les caractéristiques
des patients qui peuvent entrer dans une étude.(1)
En Anglais : inclusion criteria
Voir aussi : sujets éligibles, critères d'éligibilité
Indépendance
Définition : Neutralité d'un événement A sur un événement B : deux événements sont
indépendants si l'issue de l'un n'influe pas sur l'issue de l'autre.(1)
En Anglais : independance
Inférence
Définition : Des conclusions concernant la population étudiée sont obtenues à partir
de données issues d'un échantillon aléatoire(1)
En Anglais : inference
Faculté de médecine Paris Descartes
Page 164
Enseignement de Lecture Critique d’Article
Insu
Définition : Dans un essai thérapeutique, fait de ne pas savoir lequel des traitements
est donné. Syn. aveugle.(1)
Synonyme(s) : aveugle
En Anglais : blind
Intensité de
l’association
Voir aussi : essai en double aveugle
Définition : Force du lien d'association entre un facteur de risque ou un traitement et
une maladie.(2)
Synonyme(s) : force de l'association, taille d'effet
Voir aussi : mesure d'association
Intention de
traiter
Voir Analyse en intention de traiter
En Anglais : intention to treat
Interaction
Définition : Mesure dans laquelle l'effet d'un facteur est modifié en fonction de l'action
d'un ou de plusieurs facteurs.(1)
Synonyme(s) : effet modificateur
En Anglais : interaction
Intervalle de
confiance
Définition : Fourchette de valeurs qui encadre une estimation. Quand on parle d'un
intervalle de confiance à 95 %, c'est que la probabilité que la vraie valeur du
paramètre estimé soit comprise dans cette fourchette est de 0,95.(1)
En Anglais : confidence interval
Kaplan-Meier
Voir Survie (courbe de)
Logrank (test du)
Voir Survie (Comparaison de deux courbes de survie)
En Anglais : Logrank test
Loi HurietSerusclat
Définition : Loi relative à la protection des personnes qui se prêtent à des recherches
biomédicales. Cette loi définit les conditions qui permettent d'effectuer des recherches
biomédicales, en particulier la nécessité que la recherche soit menée par un médecin
ayant suffisamment d'expérience, la nécessité du consentement éclairé du patient, la
désignation d'un promoteur, d’un investigateur coordonnateur, et les autorisations du
CPP et de l’autorité compétente.(1)
Faculté de médecine Paris Descartes
Page 165
Enseignement de Lecture Critique d’Article
Masquage de
l’allocation des
traitements
Définition : Dans une étude randomisée, le masquage de l'allocation des traitements
consiste à faire en sorte que les personnes qui recrutent les sujets ne sachent pas et
ne puissent pas prédire dans quel groupe un individu donné sera randomisé.(2)
Commentaire(s) : L'absence de masquage de l'allocation des traitements remet en
cause la qualité de la randomisation, car il existe un risque de biais de sélection.
Synonyme(s) : assignation secrète, imprévisibilité de la randomisation
En Anglais : allocation concealment
Médiane de
survie
Voir Survie (Médiane de)
En Anglais : median survival, median survival time
Mesure
d’association
Modalités de
recrutement
Définition : Mesure de l'intensité de l'association entre un facteur de risque ou une
intervention et une maladie. On mesure l'intensité de l'association par la valeur de la
différence relative (OR, RR, HR) ou absolue (différence de moyenne ou de
pourcentage d'efficacité d'un traitement par exemple) entre les groupes exposés ou
non à l'élément soumis à évaluation.
Voir aussi : hazard ratio, odds ratio, risque relatif
Définition : Méthode(s) de recrutement des sujets dans l'étude : modalités de contact
(face-à-face, téléphone, courrier, mail...), lieu et moment du recrutement, sujets dont
l'éligibilité est évaluée, information des sujets
Commentaire(s) : Le recrutement doit viser à être le plus exhaustif possible.
En Anglais : recruitment methods/procedures, mode of recruitment
Modèle
Définition : Représentation simplifiée d'un phénomène ou d'un processus dans un but
explicatif ou prédictif.(1)
Synonyme(s) : régression
Voir aussi : modèle de régression, modèle de Cox, modèles multivariés, modèle de
poisson, régression linéaire, régression logistique
Modèle de Cox
Définition : [En analyse de survie :] Modèle statistique qui suppose que l'effet des
facteurs de l'étude (par exemple l'intervention d'intérêt) sur le risque instantané de
survenue d'un événement dans la population de l'étude est multiplicatif et ne change
pas avec le temps.(2)
Commentaire(s) : Le modèle de Cox permet d'estimer un hazard ratio, brut ou ajusté
sur certains facteurs
Synonyme(s) : Régression de Cox
En Anglais : Cox model, Cox regression
Voir aussi : modèle de régression, modèle, modèles multivariés, risque instantané
Faculté de médecine Paris Descartes
Page 166
Enseignement de Lecture Critique d’Article
Modèle de
Poisson
Définition : Modèle statistique permettant de modéliser le nombre d'occurrences
d'événements relativement rares au cours du temps.(2)
Commentaire(s) : En recherche clinique on utilise souvent le modèle de Poisson pour
étudier le nombre d'hospitalisations, le nombre d'infections, le nombre de visites chez
le médecin…des événements pour lesquels on imagine bien qu'un grand nombre de
patients présentera entre 0 et 5 événements.
Le modèle de Poisson suppose que le taux d'incidence de l'événement étudié est
constant au cours du temps, ce qui est souvent vrai pour des durées d'observation
assez courtes.
Synonyme(s) : Régression de Poisson
En Anglais : Poisson model, Poisson regression
Modèle linéaire
Voir régression linéaire
En Anglais : Linear model
Modèle logistique Voir régression logistique
En Anglais : Logistic model
Modèles de
régression
Définition : Modèle statistique qui permet d'estimer ou de prédire l'association entre
une ou plusieurs variables (dites indépendantes ou explicatives) sur une variable dite
dépendante ou à expliquer, par exemple, l'association entre l'âge, le sexe et le niveau
d'éducation et la prévalence d'une maladie. La régression logistique et la régression
linéaire sont des types d'analyse de régression.(2)
Commentaire(s) : Un modèle de régression peut être univarié (ou simple) s'il n'inclut
qu'une seule variable explicative, ou multivarié (ou multiple) s'il en inclut plusieurs. Un
modèle univarié permet de mesurer l'association brute (OR, HR, coefficient, selon le
type de régression) entre la variable explicative et la variable à expliquer. Un modèle
multivarié permet d'ajuster cette mesure sur les autres variables incluses dans le
modèle, c'est-à-dire de mesurer l'association de chaque variable du modèle avec la
variable à expliquer en "tenant compte" des autres variables explicatives.
En Anglais : regression models
Voir aussi : modèle, modèle de Cox, modèles multivariés, modèle de poisson,
régression linéaire, régression logistique
Faculté de médecine Paris Descartes
Page 167
Enseignement de Lecture Critique d’Article
Modèles
multivariés
Définition : Modèles statistiques (regression) incluant plusieurs variables explicatives
simultanément, permettant de mesurer l'association avec l'événement étudié de plus
d'une variable à la fois lors de l'analyse d'un ensemble de données. Par exemple,
l'association de l'âge, du sexe et de la profession avec la survenue d'un événement
particulier.(2)
Commentaire(s) : La mesure d'association de chaque variable explicative avec la
variable à expliquer est ajustée sur l'ensemble des autres variables explicatives
incluses dans le même modèle multivarié.
Synonyme(s) : modèle ajusté sur les facteurs…, régression multivariée
En Anglais : multivariate models, model adjusted for…
Voir aussi : modèle, modèle de Cox, modèles de régression, modèle de poisson,
régression linéaire, régression logistique
Multicentrique
(essai)
Définition : Qualifie un essai ou une étude se déroulant dans plusieurs centres à la
fois, pour, le plus souvent, augmenter le nombre de patients à inclure dans l'essai. Les
essais multicentriques sont intéressants à réaliser lorsque la fréquence de la maladie
est faible. Lors de l'analyse des résultats, il faut tenir compte de l'effet-centre (malgré
un protocole commun, il est possible que les patients pris en charge diffèrent
légèrement d'un centre à l'autre).(1)
En Anglais : multicenter
Niveau de preuve Définition : Hiérarchie de preuve scientifique pour informer les praticiens, allant en
général des plus forts aux plus faibles niveaux.(5)
Commentaire(s) : Le niveau de preuve d’une étude caractérise sa capacité à
répondre à la question posée. Cette capacité est fonction du plan de l’étude, de son
adéquation avec la question posée et de la qualité de l'étude
En Anglais : level of evidence
Nombre de sujets Définition : Nombre de sujets qui permettra de mettre en évidence une différence
nécessaires
minimale escomptée. Ce nombre est calculé a priori, il est lié au risque alpha, au
risque bêta et à la différence A moyenne que l'on souhaite mettre en évidence. Le
nombre de patients inclus tient compte, non seulement du nombre de sujets
nécessaires, mais, en plus, des éventuels perdus de vue. Il est donc généralement
supérieur au nombre de sujets nécessaires.(1)
En Anglais : number of subjects needed
Voir aussi : puissance
Faculté de médecine Paris Descartes
Page 168
Enseignement de Lecture Critique d’Article
Non-inclusion
(critères de)
Définition : Liste de critères faisant que les patients ne peuvent pas être inclus dans
une étude ou un essai.(1)
Synonyme(s) : (à tort) critères d'exclusion
En Anglais : non-inclusion criteria, exclusion criteria (à tord)
Voir aussi : sujets éligibles, critères d'éligibilité
Observance
Observateur
aveugle
Odds (cote)
Définition : Capacité des patients à prendre leur traitement conformément à ce qui
est décrit dans le protocole. Il peut être nécessaire de s'en assurer en demandant au
patient de ramener les boîtes vides, ou par des mesures de marqueurs biologiques
dans le sang ou les urines.(1)
En Anglais : adherence, compliance
Définition : Dans un essai thérapeutique, investigateur tiers qui dans un but
d’objectivité ne connaît pas le traitement reçu par le patient et qui mesure le critère de
jugement.(1)
Définition : Cote (de probabilité), utilisé dans les jeux et les paris. C'est un ratio dans
lequel le numérateur contient le nombre de fois où un événement survient, et le
dénominateur inclut le nombre de fois où l'événement ne survient pas.(1)
Voir aussi : odds ratio
Odds ratio
rapport de cotes
Définition : Rapport de deux odds : celui estimé chez les exposés sur celui estimé
chez les non exposés.
M+ ME+
aba+b
E- c d c + d
a+cb+dN
Le rapport (a x d) / (b x c) odds ratio (OR).
Si la prévalence est faible, OR est un bon estimateur du risque relatif RR.
La valeur de l'OR doit s'interpréter avec son intervalle de confiance ou la valeur du test
du Chi-2 calculée sur le
tableau.
E+ exposés,E- non exposés, M+ malades, M- non malades, N total(1)
Synonyme(s) : OR
En Anglais : odds ratio
Voir aussi : odds, mesure d'association
P
Probabilité que le hasard puisse expliquer à lui tout seul, une différence au moins
aussi grande que celle observée.
Syn. « petit p », p value(1)
Per protocole
En Anglais : p-value
Voir analyse per protocole
En Anglais : per protocol
Faculté de médecine Paris Descartes
Page 169
Enseignement de Lecture Critique d’Article
Perdu de vue
Plan d’étude
Définition : Patient qui n'est pas suivi sur la totalité de la période prévue par le
protocole d'un essai ou d'une étude épidémiologique. On ne sait pas si le patient a
guéri, s'il a eu une complication ou des effets secondaires, et pourquoi il n'est pas
revenu.(1)
Voir aussi : biais d'attrition
Voir type d'étude
En Anglais : study design
Population
Définition : Ensemble d'unités, le plus souvent des personnes définies sur des
critères précis.(1)
En Anglais : population
Population cible
Définition : Population à laquelle les résultats d'une étude pourront a priori être
étendus.(1)
En Anglais : target population
Population
d’analyse
Population
source
Voir aussi : population source
Voir échantillon analysé
Définition : Population au sein de laquelle l'échantillon a été tiré.(1)
Voir aussi : population cible
Prévalence
Définition : Nombre de personnes égal à la proportion de malades M à un instant t.(1)
Synonyme(s) : fréquence de la maladie, proportion de malades
En Anglais : prevalence
Prévention
Définition : « Ensemble des mesures visant à éviter ou à réduire le nombre ou la
gravité des maladies ou accidents » (OMS).(1)
En Anglais : prevention
Prévention
primaire
Prévention
secondaire
Définition : Ensemble des mesures ayant pour but de lutter contre l'apparition de
nouveaux cas. On diminue l'incidence.(1)
Définition : Ensemble des mesures ayant pour but de diminuer le nombre de
malades, donc, de diminuer la durée de l'état morbide. Elle vise à réduire la
prévalence.(1)
Prévention
tertiaire
Définition : Ensemble de mesures ayant pour but de diminuer le nombre
d'incapacités et leurs conséquences sociales suite à une maladie dans une
population.(1)
Probabilité
Définition : Vraisemblance de survenue d'un événement, généralement exprimée en
tant que proportion entre ceux qui subissent l'événement et ceux qui courent le risque
de le subir.(1)
Faculté de médecine Paris Descartes
Page 170
Enseignement de Lecture Critique d’Article
Probabilité posttest
Définition : Probabilité que la condition ciblée (maladie) soit présente une fois que le
résultat d'un test est renseigné.(5)
Commentaire(s) : Un test diagnostique positif devrait permettre idéalement de
confirmer une hypothèse diagnostique, donc de maximiser le plus possible la
probabilité post-test.
Inversement, un test diagnostique négatif devrait permettre idéalement d'éliminer une
hypothèse diagnostique, donc de minimiser le plus possible la probabilité post-test.
En Anglais : posttest probability
Voir aussi : rapport de vraissemblance positif, rapport de vraissemblance négatif,
probabilité pré-test
Probabilité prétest
Définition : Probabilité que la condition ciblée (maladie) soit présente avant que le
résultat d'un test soit renseigné.(5)
Commentaire(s) : II s'agit d'une évaluation subjective du médecin.
En Anglais : pretest probability
Voir aussi : rapport de vraissemblance positif, rapport de vraissemblance négatif,
probabilité post-test
Prospectif
Définition : Qualifie une enquête dont le suivi se fait postérieurement à
l'enregistrement de l'exposition au facteur de risque.(1)
En Anglais : prospective
Voir aussi : étude épidémiologique prospective, cohorte, rétrospectif
Protocole
Définition : Document planifié qui définit précisément les objectifs, les moyens et les
méthodes mis en oeuvre pour y parvenir.(1)
En Anglais : protocol
Faculté de médecine Paris Descartes
Page 171
Enseignement de Lecture Critique d’Article
Puissance
Définition : Dans un test statistique, probabilité de conclure à l'existence d'une
différence qui existe dans la réalité. C'est le complément à un du risque bêta (1-bêta).
Elle augmente avec le nombre de sujets inclus dans l'étude. Elle est fixée a priori. (1)
Synonyme(s) : puissance statistique
En Anglais : power, statistical power
Voir aussi : nombre de sujets nécessaire
Randomisation
Définition : Tirage au sort des patients permettant une répartition au hasard,
aléatoire, des patients dans deux ou plusieurs groupes(1)
Synonyme(s) : allocation aléatoire
En Anglais : randomization
Voir aussi : aléatoire, essai clinique, essai contrôlé, essai thérapeutique,
randomisation par blocs, randomisation simple
Randomisation
par blocs
Définition : Méthode de randomisation qui permet de limiter les déséquilibres dans le
nombre de patients randomisés entre les groupes en cas de faible effectif (lorsqu’il y a
un risque de fluctuations d’échantillonnage). Pour un bloc de taille N, tous les N
patients, N/2 seront randomisés dans le groupe A, N/2 dans le groupe B.
En Anglais : Block randomization (random permuted blocks)
Randomisation
simple
Voir aussi : randomisation, randomisation simple, équilibre (tirage au sort)
Définition : Randomisation n'utilisant pas de méthode particulière pour équilibrer les
effectifs ou les caractéristiques de sujets entre les groupes (pas de randomisation par
blocs et randomisation non stratifiée)
En Anglais : simple randomization
Voir aussi : randomisation, randomisation par blocs
Randomisation
stratifiée
Voir stratification de la randomisation
En Anglais : stratified randomization
Rapport de
vraisemblance
négatif
Définition : Un rapport de vraisemblance négatif permet d’estimer dans quelle mesure
une maladie chez un patient est moins plausible après un résultat de test négatif.
C’est la relation entre la probabilité d’un test négatif chez les malades et chez les nonmalades.
RV- = (1 - sensibilité)/spécificité. Ce nombre est normalement plus petit que 1. Un test
diagnostique informe d’autant plus que le RV- se rapproche de 0.
(Source : http://www.minervaebm.be/articles/fr/woordenlijst_fr/rapport_de_vraisemblance.htm)
En Anglais : negative likelihood ratio
Voir aussi : rapport de vraissemblance positif, probabilité pré-test, probabilité posttest
Faculté de médecine Paris Descartes
Page 172
Enseignement de Lecture Critique d’Article
Rapport de
vraisemblance
positif
Définition : Un rapport de vraisemblance positif permet d’estimer dans quelle mesure
la présence d’une maladie chez un patient est plus plausible après un résultat de test
positif. C’est la relation entre la probabilité d’un test positif chez les malades et celle
chez les non-malades.
RV+= sensibilité/(1 - spécificité). Ce nombre est normalement plus grand que 1. Un
test diagnostique informe d’autant plus que le RV+ tend vers l’infini.
(Source : http://www.minervaebm.be/articles/fr/woordenlijst_fr/rapport_de_vraisemblance.htm)
En Anglais : positive likelihood ratio
Voir aussi : rapport de vraissemblance négatif, probabilité pré-test, probabilité posttest
Ratio de mortalité Définition : Rapport entre un nombre de décès observé dans une population et le
standardisé
nombre de décès attendu (en se basant sur le taux de la population générale).(1)
Régression
Voir modèle de régression
En Anglais : regression
Régression de
Cox
Voir modèle de Cox
En Anglais : Cox regression
Régression de
Poisson
Voir modèle de Poisson
En Anglais : Poisson regression
Régression
linéaire
Définition : Établissement d'une relation linéaire dans laquelle une variable de la
forme Y = aX + bZ + ... + constante quantitative dépend linéairement d'une (X) ou
plusieurs autres variables (X et Z) (dites explicatives). On parlera respectivement de
régressions linéaires simple (une variable explicative) ou multiple (plusieurs
variables).(1)
Synonyme(s) : modèle linéaire
En Anglais : linear regression, linear model
Régression
logistique
Voir aussi : modèle de régression, modèle, modèles multivariés
Définition : Forme d'analyse de régression qui modélise la probabilité d'une maladie
ou d'un autre événement en fonction d'un facteur de risque ou une intervention. Il est
largement utilisé pour les variables dichotomiques (en oui/non), en particulier pour
faire une analyse ajustée sur certains facteurs de confusion potentiels.(2)
Synonyme(s) : modèle logistique
En Anglais : logistic model, logistic regression
Voir aussi : modèle de régression, modèle, modèles multivariés
Régression
multivariée
Voir modèles multivariés
En Anglais : multivariate regression
Faculté de médecine Paris Descartes
Page 173
Enseignement de Lecture Critique d’Article
Répartition
aléatoire
Voir aléatoire
Synonyme(s) : allocation aléatoire, randomisation
En Anglais : random allocation, randomisation
Voir aussi : randomisation
Représentatif
Définition : Qualifie un échantillon par rapport à un caractère, si ce caractère se
distribue identiquement dans l'échantillon et dans la population dont il est issu. Un
échantillon tiré au sort est représentatif, pourvu que son effectif soit suffisant (loi des
grands nombres).(1)
En Anglais : representative
Reproductibilité
(d'un test
diagnostique)
Rétrospectif
Voir aussi : biais de sélection
Voir fiabilité
Définition : Qualifie un intérêt pour le passé des sujets participant l'enquête. On part à
la recherche du temps passé.(1)
Synonyme(s) : historique
En Anglais : retrospective
Voir aussi : Enquête (ou étude) Cas-Témoin, cohorte historique, prospectif
Risque
Définition : Probabilité de survenue d'un événement.(1)
En Anglais : risk
Risque absolu
Risque alpha
Définition : Risque de survenue d'un événement (en général fâcheux : décès,
maladie, complication, etc.) chez une personne donnée, pendant un intervalle de
temps déterminé, en fonction de la connaissance des facteurs de risque auxquels elle
est exposée.(1)
En Anglais : absolute risk
Définition : Probabilité de conclure à une différence alors qu'elle n'existe pas.(1)
Voir aussi : fluctuations d'échantillonnage
Risque bêta
Définition : Probabilité de ne pas conclure à une différence alors que cette différence
existe.(1)
Voir aussi : puissance, fluctuations d'échantillonnage
Risque de
deuxième espèce
Risque de
première espèce
Risque
instantané
Voir Risque bêta
Voir risque alpha
Définition : [En analyse de survie :] Risque de survenue de l'événement d'intérêt à un
instant donné.
En Anglais : instantaneous hazard rate
Voir aussi : hazard ratio, modèle de Cox
Faculté de médecine Paris Descartes
Page 174
Enseignement de Lecture Critique d’Article
Risque relatif
Définition : C'est un indicateur qui mesure l'association entre un facteur d'exposition
et un événement (survenu d'une maladie, décès, etc.)
Sur un tableau de contingence, on peut définir :
M+ ME+
aba+b
E- c d c + d
a+cb+dN
Incidence chez les exposés : I E = a / (a + b)
Incidence chez les non exposés : I NE = c / (c + d)
La quantité (formule) est appelée : « risque relatif RR ».
Les exposés ont RR fois plus de risques de développer la maladie que les non
exposés. Un risque relatif supérieur à un signifie que l'exposition augmente le risque
(facteur de risque), un risque inférieur à un signifie que l'exposition diminue le risque
(facteur protecteur).(1)
En Anglais : relative risk
Voir aussi : mesure d'association, risque
Schéma
expérimental
Sensibilité
Voir type d'étude
Définition : Probabilité que le test soit positif (T+) si on est malade.
M+ MTest
+ VP FP Nb T+
Test- FN VN Nb TNb
M+ Nb M- N
Sensibilité : (formule)
Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs.(1)
En Anglais : sensitivity
Voir aussi : valeur prédictive positive, valeur prédictive négative, spécificité, Validité
(diagnostique)
Signification
statistique
Définition : Conviction selon laquelle le résultat observé n'est pas lié au seul hasard ;
elle est généralement basée sur une valeur de p inférieure à 0,05.(1)
En Anglais : statistical significance
Voir aussi : degré de signification, risque alpha
Spécificité
Définition : Probabilité que le test soit négatif (T-) si on n'est pas malade.
M+ MTest
+ VP FP NbT+
Test- FN VN NbTNb
M+ Nb M- N
Spécificité : (formule)
Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs.(1)
En Anglais : specificity
Voir aussi : valeur prédictive positive, valeur prédictive négative, sensibilité, Validité
(diagnostique)
Faculté de médecine Paris Descartes
Page 175
Enseignement de Lecture Critique d’Article
Strate
Voir stratification
Synonyme(s) : sous-groupe
En Anglais : strate, subgroup
Stratification
Définition : Répartition d'un échantillon en sous-groupes appelés strates, en fonction
d'une ou plusieurs caractéristiques. Ainsi, au sein de chaque strate, les individus sont
homogènes pour cette ou ces caractéristiques.(1)
En Anglais : stratification
Voir aussi : stratification de la randomisation, analyse par sous-groupe
Stratification de
la randomisation
Définition : Méthode utilisée pour s'assurer qu'un nombre égal de sujets ayant une
caractéristique supposée affecter le pronostic ou la réponse à l'intervention sera alloué
à chaque groupe de comparaison. La randomisation stratifiée est réalisée en
effectuant une randomisation séparément pour chaque strate. Par exemple, dans un
essai chez des femmes ayant un cancer du sein, il peut être important de disposer
d'un nombre similaire de femmes en pré-ménopause et en post-ménopause dans
chaque groupe de comparaison. La randomisation stratifiée peut être utilisée pour
équilibrer le nombre de femmes pré-et post-ménopausées dans les groupes de
traitement.(2)
Synonyme(s) : randomisation stratifiée
En Anglais : stratified randomization
Voir aussi : stratification, randomisation
Sujets éligibles
Définition : Un sujet est dit éligible dans le cadre d'une étude de recherche clinique, à
partir du moment où l'ensemble de ses caractéristiques répond d'une part à
l'ensemble des critères d'inclusion, et d'autre part à l'ensemble des critères de noninclusion définis dans le protocole de l'étude.(1)
En Anglais : eligible subjects
Voir aussi : critères d'éligibilité, inclusion (critères d'), exclusion (critères d'), noninclusion (critères de)
Survie (Courbe
de)
Définition : Représentation graphique d'un taux de survie en fonction du temps. On
rencontre principalement :
- les courbes de survie de Kaplan-Meïer, avec un aspect en marches d'escalier de
hauteurs inégales, où chaque événement, ou plusieurs événements simultanés,
représentent la verticale d'une marche (la hauteur de la marche étant proportionnelle
au nombre d’événements survenus) ;
- les courbes de survie actuarielle, avec un aspect de courbe formée de segments de
droite reliant des points situés à intervalles réguliers au cours du temps (semaines,
mois, etc.).
L'utilisation de ces méthodes suppose que le risque de décès soit constant pendant
toute la durée de l'étude. La notion de survie est extensible à tout événement qualitatif
binaire non récurent autre que le décès : on peut citer, en cancérologie, l'apparition
d'une récidive ou l'apparition d'une métastase.(1)
En Anglais : survival curve
Voir aussi : censure, modèle de Cox
Faculté de médecine Paris Descartes
Page 176
Enseignement de Lecture Critique d’Article
Survie (date des
dernières
nouvelles)
Définition : La date des dernières nouvelles, dans une étude de survie, représente
pour chaque patient, soit la date de survenue de l'événement (décès par exemple),
soit la dernière date pour laquelle on dispose de renseignements concernant un
patient en vie (si l'événement étudié est le décès)(1)
Survie (date
d'origine)
Définition : La date d'origine, dans une étude de survie, représente pour chaque
patient sa date d'entrée dans l'étude, par exemple la date de diagnostic anatomopathologique de son cancer.(1)
Survie (délai ou
temps de
participation)
Définition : Le délai de participation, dans une étude de survie, représente le délai
entre la date des dernières nouvelles et la date d'origine.(1)
Survie (Médiane
de)
Définition : Délai de survie pour lequel on observe une mortalité de 50 % de la
population de sujets inclus dans l'étude.(1)
En Anglais : median survival, median survival time
Survie (recul)
Définition : Le recul d'un patient, dans une étude de survie, représente le délai écoulé
entre la date d'origine et la date de point. Les reculs minimum et maximum d'une série
de sujets participant à une étude définissent donc «l'ancienneté » de la série.(1)
Survie (sujet
censuré)
Définition : Un sujet est dit censuré à droite, dans deux situations de mécanismes
différents :
- lorsqu'il est considéré comme perdu de vue, si on ne connaît pas son état à la date
de point, mais si on sait qu'il était encore vivant à une date antérieure, définie comme
date des dernières nouvelles,
- lorsqu'il est considéré comme exclu-vivant, c'est-à-dire lorsqu'on dispose de son état
(vivant ou mort) à une date des dernières nouvelles, postérieure à la date choisie
comme date de point. Dans ce cas, sa participation à l'étude ne sera étudiée qu'entre
sa date d'origine et la date de point.(1)
En Anglais : (right-)censored follow-up
Survie (Taux de
Définition : Indicateur largement utilisé en cancérologie, indiquant le taux de survie
survie à cinq ans) cinq ans après le diagnostic initial.(1)
En Anglais : 5-year survival rate
Survie
[Comparaison de
deux courbes de
survie (Test du
logrank)]
Taux
Taux de survie à
cinq ans
Définition : C'est le test le plus courant permettant la comparaison de deux courbes
de survie.(1)
Définition : Rapport constitué d'un numérateur représenté par le nombre d'individus
porteurs d'un attribut ou vivant un événement dans une population susceptible de
présenter l'attribut ou de vivre l'événement en question (en général à un moment ou
durant une période donnée). Cette population constitue le dénominateur du taux.
Proportion dans laquelle le numérateur est une partie du dénominateur. Un taux est
donc un nombre sans unité.(1)
En Anglais : rate
Voir Survie (taux de survie à cinq ans)
En Anglais : 5-year survival rate
Taux de survie à
un temps donné
Voir Survie (taux de survie à un temps donné)
Faculté de médecine Paris Descartes
Page 177
Enseignement de Lecture Critique d’Article
Technique
Définition : Mode d'obtention de l'échantillon. Pour avoir un échantillon représentatif,
d'échantillonnage la méthode la plus simple est le tirage au sort. La taille de l'échantillon est primordiale
car elle conditionne la précision des estimations sur cet échantillon.(1)
En Anglais : sampling method
Temps de
participation ou
délai de survie
Voir Survie (délai ou temps de participation)
Test bilatéral
Définition : Test statistique pour lequel on prend, comme hypothèse alternative,
l'existence d'une différence, dans un sens ou l'autre.(1)
En Anglais : bilateral test
Voir aussi : test statistique
Test de référence Voir gold standard
En Anglais : gold standard
Test statistique
Définition : Méthode statistique permettant de rejeter ou non une hypothèse dite nulle
(H0) en calculant la probabilité qu'un résultat observé (souvent une différence entre
deux groupes) soit lié au hasard. Si cette probabilité est inférieure au seuil fixé à priori
(en général 5%), on rejette l'hypothèse nulle. Si l'on rejette l'hypothèse nulle, on
conclut à la véracité de l'hypothèse alternative (H1). En revanche si l'on ne rejette pas
l'hypothèse nulle, on ne peut pas conclure à la véracité de l'hypothèse nulle.
Pour savoir si le résultat observé avait moins de 5% de probabilité d'être lié au hasard,
on calcule un paramètre de test. Celui-ci permet de ramener le résultat observé à une
distribution pour laquelle on connaît la probabilité d'occurrence de chaque valeur.
Selon la distribution du résultat observé (loi normale, loi de Student, loi du Chi-2...), le
paramètre de test sera différent.
En Anglais : statistical test
Voir aussi : fluctuations d'échantillonnage, degré de signification
Test unilatéral
Définition : Test statistique pour lequel on prend comme hypothèse alternative
l'existence d'une différence dont le sens est connu.(1)
En Anglais : unilateral test
Voir aussi : test statistique, unilatéral
Type d’étude
Définition : Terme désignant généralement (y compris dans ce cours) l'ensemble des
caractéristiques d'une étude.
Synonyme(s) : design, plan d'étude, schéma expérimental
En Anglais : design
Unilatéral
Définition : Test statistique pour lequel on prend comme hypothèse alternative une
différence, uniquement dans un sens.(1)
En Anglais : unilateral
Voir aussi : test statistique, test unilatéral
Faculté de médecine Paris Descartes
Page 178
Enseignement de Lecture Critique d’Article
Univariée
(analyse)
Définition : Analyse dans laquelle on étudie l'action d'un seul facteur à la fois sur un
phénomène observé.(1)
En Anglais : univariate analysis
Voir aussi : modèles multivariés
Valeur de p
Définition : Probabilité que le hasard puisse expliquer à lui tout seul une différence au
moins aussi grande que celle observée.
En Anglais : p-value, significance level
Valeur prédictive
négative
Voir aussi : degré de signification, test statistique, fluctuations d'échantillonnage
Définition : Probabilité de n'être pas malade (M-) si le test est négatif (T-).
M+ MTest
+ VP FP NbT+
Test- FN VN NbTNbM+
NbM- N
Valeur prédictive négative :
VPN=VN/(VN+FN)
Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs(1)
En Anglais : positive predictive value
Voir aussi : valeur prédictive positive, sensibilité, spécificité, Validité (diagnostique)
Valeur prédictive
positive
Définition : Probabilité d'être malade (M+) si le test est positif (T+).
M+ MTest
+ VP FP NbT+
Test- FN VN NbTNb
M+ Nb M- N
Valeur prédictive positive :
VPP=VP/(VP+FP)
Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs.(1)
En Anglais : negative predictive value
Voir aussi : valeur prédictive négative, sensibilité, spécificité, Validité (diagnostique)
Validité
(diagnostique)
Définition : Capacité d'un test à donner la réponse appropriée à la question posée.
Cela suppose qu'elle doit être précise et exacte.(1)
En Anglais : validity
Variable
Voir aussi : sensibilité, spécificité, valeur prédictive positive, valeur prédictive
négative
Définition : Attribut ou phénomène qui présente différentes valeurs, tel l'âge, le sexe,
le nombre de cigarettes fumées...(1)
En Anglais : variable
Faculté de médecine Paris Descartes
Page 179
Enseignement de Lecture Critique d’Article
Variance
Définition : Indicateur de la variation d'un caractère quantitatif dans un ensemble
d'observations. C'est le carré de l'écart-type. Plusieurs formules équivalentes existent,
la plus intuitive étant de dire que la variance est la "moyenne des carrés des écarts à
la moyenne" : Var(X) = E[(X - E(X))²]
Synonyme(s) : écart-type (racine de la variance)
En Anglais : variance, standard error (écart-type)
Faculté de médecine Paris Descartes
Page 180
Téléchargement