Dangers des analyses en sous-groupes et des tests

publicité
MISE AU POINT
Progrès en Urologie (2001), 11, 119-121
Dangers des analyses en sous-groupes et des tests multiples
Pascal GLEMAIN
Clinique Urologique, Hôtel Dieu, Nantes, France
RESUME
Les analyses en sous-groupes, les statistiques "a posteriori", les tests multiples, motivés
par la recherche de covariables explicatives, sont fréquents dans la littérature médicale.
Pourtant ces manipulations des données provoquent des modifications des groupes initiaux, une augmentation incontrôlable du risque alpha, une diminution de la puissance
de l'étude et un risque de raisonnement circulaire. En prenant pour exemple un article
concernant le traitement hormonal du cancer de la prostate, plusieurs situations seront
abordées, selon qu'il s'agit d'une étude randomisée ou non, que la ou les covariables sont
prévues dès le départ, que le résultat sur le critère principal est significatif ou non.
Mots clés : Statistiques, méthodologie, analyses en sous-groupes, tests statistiques multiples, cancer de
prostate, hormonothérapie.
L’analyse en sous-groupes consiste à découper l'échantillon d'u ne étude, réparti le plus souvent en deux groupes
selon la variable principale par exemple, le traitement, en
groupes plus petits, selon des variables complémentaires,
appelées covariables, censées rendre compte de l'hétérogénéïté de cet échantillon. La justification clinique est la
recherche de caractéristiques cliniques ou biologiques,
telles l'âge, le sexe, le stade de la maladie, autant de covariables, susceptibles d'influencer le résultat observé sur la
variable principale. C'e st en quelque sorte une tentative
de caractérisation du sous-groupe des patients "répondeurs" pour «affiner» l'indication thérapeutique.
Bien que la différence entre les courbes soit significative, elle n'était pas importante. L'idée de rechercher un
sous-groupe de patients répondeurs était donc tout à
fait justifiée pour le clinicien. Ainsi les courbes de survies montraient un net avantage en faveur du traitement
combiné dans le sous-groupe des patients les moins
atteints au départ ("minimal disease"). Mais remarquons que cette observation ne figurait que dans la discussion et qu'aucun test statistique n'en évaluait le
degré de signification. Les auteurs se basaient sur une
"inspection of the stratified survival plot". Nous allons
voir pourquoi ils ont eu raison de procéder ainsi et
pourquoi leur observation ne pouvait pas être acceptée
comme une conclusion bien qu'elle soit attractive pour
le clinicien.
Prenons l'exemple d'une étude qui fait référence dans le
domaine du blocage androgénique "maximum", "combiné" ou "complet" [2]. Des patients porteurs de cancers de prostate métastasés, ont été répartis par tirage
au sort entre deux bras thérapeutiques. Trois cents ont
eu une castration par Leuprolide associé à un Placebo
et 303 ont eu un traitement combiné par Leuprolide
plus Flutamide. Les comparaisons des courbes de survies sans progression et de survies, selon la variable
principale qu'est le traitement, ont montré des différences significatives, respectivement à p = 0,039 et p =
0,035 (courbes Kaplan Meier, test du log-rank) en
faveur du traitement combiné. En préalable à ces résultats, les auteurs avaient vérifié qu'il n'y avait pas de différence entre les deux bras thérapeutiques pour des
covariables "vérifiables" tels l'âge ou différentes autres
caractéristiques cliniques et biologiques. Si une différence avait été mise en évidence, elle aurait pu être responsable d'un biais susceptible d'expliquer les différences entre les deux traitements.
Plusieurs arguments méthodologiques s'opposent à la
pratique des analyses en sous-groupes. Il s'agit de la
modification des groupes issus du tirage au sort initial,
de l'augmentation incontrôlable du risque alpha, de la
diminution de la puissance de l'étude et du risque de
raisonnement circulaire.
- La modification des groupes issus du tirage au sort va
à l'encontre du principe de l'analyse en intention de
traiter [4]. L'extraction de sous-groupes va annuler le
bénéfice du tirage au sort qui est le meilleur moyen de
constituer des groupes comparables. Si ce principe
n'est pas respecté, le lien de causalité entre la différen-
Manuscrit reçu : juillet 2000, accepté : septembre 2000
Adresse pour correspondance : Dr. P. Glémain, Clinique Urologique, Hôtel Dieu,
44093 Nantes Cedex 01.
e-mail : [email protected]
119
Pascal Glémain, Progrès en Urologie (2001), 11, 119-121
ce de traitement et le résultat observé est altéré et le
risque d'observer une différence significative par
hasard est majoré. Et ceci quelles que soient les justifications qui ont conduit à la formation de ces sousgroupes par la sélection de certains patients. Il peut
s'agir des patients qui sont allés jusqu'au bout de l'étude, de ceux qui ont bien pris le traitement, des moins
atteints, des plus jeunes etc. De plus, l'utilisation d'une
covariable quantitative, comme l'âge, ou d'une variable
qualitative à plusieurs classes, comme le stade clinique,
permet toutes les manipulations possibles en faisant
varier la limite de séparation et donc les regroupements, jusqu'à observer une différence entre deux sousgroupes
- Dans une étude prospective, il existe plusieurs cas de
figures selon qu'il y a ou non une hypothèse faite a
priori sur l'intervention de covariables, et selon le
résultat de l'analyse base sur le critère principal.
Si l'intervention d'une covariable est suspectée a priori,
il est possible d'effectuer une randomisation des
patients avec une stratification sur cette covariable
(stade anatomo-pathologique par exemple) afin d'équilibrer les effectifs par traitements. Mais la situation
devient ingérable s'il y a plus d'une ou deux covariables.
Si l'analyse de base, sur le critère principal, montre une
différence significative, la caractérisation de sousgroupes est possible, de même que l'utilisation de
méthodes d'ajustement. Mais elle ne saurait conduire
qu'à des hypothèses à tester par une étude ultérieure.
Dans notre exemple, le bénéfice d'un traitement combiné fut de nouveau testé, de façon un peu différente
(castration chirurgicale plus Placebo ou Flutamide) par
la même équipe. Mais aucune différence significative
ne fut mise en évidence, ni dans le groupe principal, ni
dans le sous-groupe des patients "minimal disease" [3].
- La majoration du risque
augmente le risque de
conclure à tort à une différence. La procédure normale
consiste à formuler une hypothèse a priori, puis à
recueillir des données et à tester cette hypothèse avec
un risque
en général de 5%. Il s'agit du risque
consenti d'accepter la différence observée comme
significative alors qu'elle peut être le fruit du hasard
des fluctuations d'échantillonnage. Si d'autres tests sont
effectués selon un découpage différent, déterminant
des sous-groupes, le modèle servant de base au raisonnement statistique n'est plus applicable. Les tests ne
sont plus indépendants puisqu'ils portent sur les mêmes
données ou une partie d'entre elles, et sur la même
expérience. Chacune de ces procédures, chaque nouveau test, majore le risque de sorte qu'il n'est plus
possible de connaître le risque d'erreur si une différence significative fini par être observée.
Si l'analyse de base ne montre pas de différence significative, la recherche de sous-groupes, dans le but de
faire apparaître des différences, doit être rejetée, même
s'il est toujours possible de trouver des justifications
cliniques.
- Dans une étude rétrospective comment faire si nous
n'avons droit qu'à un seul groupe, ou à deux groupes
constitués dès le début, et à un seul test? Dans l'idéal, il
faudrait se poser une question avant d'isoler la série,
puis recueillir les données et les analyser avec un test
unique pour répondre à la question, c'est-à-dire tester
l'hypothèse initiale. Toutes modifications ultérieures de
la série en différents sous-groupes, "pour voir si ...",
n'est que "dragage" de données ou "bidouillage" statistique a posteriori (statistiques post hoc). Plus on essaye
de covariables, de nouveaux sous-groupes, d'autres
tests, plus on majore le risque . Certes il existe des
méthodes qui tiennent compte de cette inflation du
risque , telle la correction de BONFERRONI [1]. Mais,
si trop de tests sont prévus, leur application conduit à
une telle inflation du risque que seules des évidences
deviennent significatives. La pratique de tests successifs peut se justifier dans certaines procédures statistiques validées. Ainsi les analyses intermédiaires, parfois nécessaires, imposent une diminution du risque
consenti pour chacun des tests afin que sur l'ensemble
de l'étude le risque total soit celui recherché, le plus
souvent de = 0,05. Une procédure proche est aussi
prévue dans le cadre des analyses séquentielles.
- La diminution de la puissance de l'étude provoquée
par l'augmentation du risque , majore le risque de
conclure à tort à l'absence de différence significative.
Le risque est en quelque sorte l'inverse du risque .
C'est le risque consenti de ne pas observer de différence significative alors qu'il y en a une en réalité. La puissance de l'étude, 1- , est sa capacité à mettre en évidence de façon significative une différence qui existe
réellement. Un de ses principaux composants, et celui
que l'on peut maîtriser, est le nombre des sujets inclus.
En diminuant le nombre de sujets sur lesquels porte
l'étude, puisque les tests portent sur des sous-groupes,
la puissance diminue, ce qui se traduit par une majoration du risque de ne pas mettre en évidence une différence qui existerait réellement. De façon paradoxale
pour un clinicien, ce n'est pas parce qu'on ne met pas en
évidence de différence significative sur une analyse en
sous-groupes, qu'il n'y en a pas en réalité.
- Le risque de raisonnement circulaire, de type tautologique, provient du fait que ce sont les données de la
même étude qui servent à tester, a posteriori, l'hypothèse à laquelle elles ont donné naissance.
Il existe aussi des méthodes d'analyses multivariées.
Mais leur logique est plus mathématique que statistique. Le lien entre le résultat d'une analyse et le phé-
D'une façon générale, la pratique se discute selon que l'on
est dans le cadre d'une étude prospective ou rétrospective.
120
Pascal Glémain, Progrès en Urologie (2001), 11, 119-121
nomène biologique en cause est complexe et le niveau
de preuve très faible. Ces méthodes servent à alimenter
des discussions et parfois à faire ressortir des hypothèses à tester (et pas seulement à vérifier).
3. EISENGERGER M.A., BLUMENSTEIN B.A., CRAWFORD E. D.,
MILLER G., McLEOD D.G., LOEHRER P.J., WILDING G.,
SEARS K., CULKIN D.J., THOMPSON I.M., BUESCHEN A.J.
LOWE B.A. Bilateral orchiectomy with or without Flutamide for
metastatic prostatic cancer. N. Engl. J. Med., 1998, 339, 1036-1042.
En conclusion, il est possible d'utiliser les analyses en
sous-groupes à condition d'en connaître les limites, ce
qui revient à ne donner aux résultats que le statut d'hypothèses et surtout pas celui de conclusions. D'une
façon générale, les tests statistiques doivent être aussi
peu nombreux que possible. Pour cela, il faut bien préciser, avant le recueil des données, la question à
résoudre, donc l'objectif principal puis le critère de
jugement, même sur une série rétrospective.
4. GLEMAIN P. L'intention de traiter. Prog. Urol., 2000, 10, 12551257.
____________________
SUMMARY
Dangers of subgroup analyses and multiple tests
REFERENCES
1. BLAND J.M., ALTMAN D.G. Multiple significance tests: the
Bonferroni method. B.M.J, 1995, 310, 170.
2. CRAWFORD E. D., EISENGERGER M.A., McLEOD D.G., SPAULDING J .T., BENSON R., DORR F.A., BLUMENSTEIN B.A.,
DAVIS M.A., GOODMAN P.J. A controlled trial of Leuprolide with
and without Flutamide in prostatic carcinoma. N. Engl. J. Med.,
1989, 321, 419-424 (erratum, N. Engl. J. Med., 1989, 321, 1420).
Subgroup analyses, "retrospective" statistics, and multiple tests,
motivated by the search for explanatory covariables, are fre quently used in the medical literature. However, these data
manipulations induce modifications of the groups defined by
initial randomization, an unverifiable increase of the alpha risk,
a reduction of the power of the study and a risk of circular rea soning. Taking the example of an article concerning the hormo nal treatment of prostate cancer, several situations are discus sed, according to whether or not the study is prospective, whe ther or not the covariables are defined from the outset, and whe ther or not the results for the primary endpoint are significant.
Key-Words: Statistics, methodology, subgroup analyses, mul tiple statistical tests.
____________________
121
Téléchargement