Dangers des analyses en sous-groupes et des tests

MISE AU POINT Progrès en Urologie (2001), 11, 119-121
119
Dangers des analyses en sous-groupes et des tests multiples
Pascal GLEMAIN
Clinique Urologique, Hôtel Dieu, Nantes, France
Lanalyse en sous-groupes consiste à couper l'échan-
tillon d'une étude, réparti le plus souvent en deux groupes
selon la variable principale par exemple, le traitement, en
groupes plus petits, selon des variables complémentaires,
appees covariables, censées rendre compte de l'héro-
généïté de cet échantillon. La justification clinique est la
recherche de caracristiques cliniques ou biologiques,
telles l'âge, le sexe, le stade de la maladie, autant de cova-
riables, susceptibles d'influencer le résultat observé sur la
variable principale. C'est en quelque sorte une tentative
de caractérisation du sous-groupe des patients "répon-
deurs" pour «affiner» l'indication trapeutique.
Prenons l'exemple d'une étude qui fait référence dans le
domaine du blocage androgénique "maximum", "com-
biné" ou "complet" [2]. Des patients porteurs de can-
cers de prostate métastasés, ont été répartis par tirage
au sort entre deux bras thérapeutiques. Trois cents ont
eu une castration par Leuprolide associé à un Placebo
et 303 ont eu un traitement combiné par Leuprolide
plus Flutamide. Les comparaisons des courbes de sur-
vies sans progression et de survies, selon la variable
principale qu'est le traitement, ont montré des dif-
rences significatives, respectivement à p = 0,039 et p =
0,035 (courbes Kaplan Meier, test du log-rank) en
faveur du traitement combiné. En préalable à ces résul-
tats, les auteurs avaient vérifié qu'il n'y avait pas de dif-
férence entre les deux bras thérapeutiques pour des
covariables "vérifiables" tels l'âge ou différentes autres
caractéristiques cliniques et biologiques. Si une dif-
rence avait été mise en évidence, elle aurait pu être res-
ponsable d'un biais susceptible d'expliquer les dif-
rences entre les deux traitements.
Bien que la différence entre les courbes soit significa-
tive, elle n'était pas importante. L'idée de rechercher un
sous-groupe de patients répondeurs était donc tout à
fait justifiée pour le clinicien. Ainsi les courbes de sur-
vies montraient un net avantage en faveur du traitement
combiné dans le sous-groupe des patients les moins
atteints au départ ("minimal disease"). Mais remar-
quons que cette observation ne figurait que dans la dis-
cussion et qu'aucun test statistique n'en évaluait le
degré de signification. Les auteurs se basaient sur une
"inspection of the stratified survival plot". Nous allons
voir pourquoi ils ont eu raison de procéder ainsi et
pourquoi leur observation ne pouvait pas être acceptée
comme une conclusion bien qu'elle soit attractive pour
le clinicien.
Plusieurs arguments méthodologiques s'opposent à la
pratique des analyses en sous-groupes. Il s'agit de la
modification des groupes issus du tirage au sort initial,
de l'augmentation incontrôlable du risque alpha, de la
diminution de la puissance de l'étude et du risque de
raisonnement circulaire.
- La modification des groupes issus du tirage au sort va
à l'encontre du principe de l'analyse en intention de
traiter [4]. L'extraction de sous-groupes va annuler le
bénéfice du tirage au sort qui est le meilleur moyen de
constituer des groupes comparables. Si ce principe
n'est pas respecté, le lien de causalité entre la différen-
Manuscrit reçu : juillet 2000, accepté : septembre 2000
Adresse pour correspondance : Dr.P.Glémain, Clinique Urologique, Hôtel Dieu,
44093 Nantes Cedex 01.
RESUME
Les analyses en sous-groupes, les statistiques "a posteriori", les tests multiples, motivés
par la re c h e rche de covariables explicatives, sont fréquents dans la littérature médicale.
P o u rtant ces manipulations des données provoquent des modifications des groupes ini-
tiaux, une augmentation incontrôlable du risque alpha, une diminution de la puissance
de ltude et un risque de raisonnement circ u l a i r e. En prenant pour exemple un art i c l e
concernant le traitement hormonal du cancer de la prostate, plusieurs situations sero n t
abordées, selon qu'il s'agit d'une étude randomisée ou non, que la ou les covariables sont
prévues dès le départ, que le résultat sur le critère principal est significatif ou non.
Mots clés : Statistiques, méthodologie, analyses en sous-groupes, tests statistiques multiples, cancer de
prostate, hormonothérapie.
120
ce de traitement et le résultat observé est altéré et le
risque d'observer une différence significative par
hasard est majoré. Et ceci quelles que soient les justifi-
cations qui ont conduit à la formation de ces sous-
groupes par la sélection de certains patients. Il peut
s'agir des patients qui sont allés jusqu'au bout de l'étu-
de, de ceux qui ont bien pris le traitement, des moins
atteints, des plus jeunes etc. De plus, l'utilisation d'une
covariable quantitative, comme l'âge, ou d'une variable
qualitative à plusieurs classes, comme le stade clinique,
permet toutes les manipulations possibles en faisant
varier la limite de séparation et donc les regroupe-
ments, jusqu'à observer une différence entre deux sous-
groupes
- La majoration du risque augmente le risque de
conclure à tort à une différence. La procédure normale
consiste à formuler une hypothèse a priori, puis à
recueillir des données et à tester cette hypothèse avec
un risque en général de 5%. Il s'agit du risque
consenti d'accepter la différence observée comme
significative alors qu'elle peut être le fruit du hasard
des fluctuations d'échantillonnage. Si d'autres tests sont
effectués selon un découpage différent, déterminant
des sous-groupes, le modèle servant de base au raison-
nement statistique n'est plus applicable. Les tests ne
sont plus indépendants puisqu'ils portent sur les mêmes
données ou une partie d'entre elles, et sur la même
expérience. Chacune de ces procédures, chaque nou-
veau test, majore le risque de sorte qu'il n'est plus
possible de connaître le risque d'erreur si une différen-
ce significative fini par être observée.
- La diminution de la puissance de l'étude provoquée
par l'augmentation du risque , majore le risque de
conclure à tort à l'absence de différence significative.
Le risque est en quelque sorte l'inverse du risque .
C'est le risque consenti de ne pas observer de différen-
ce significative alors qu'il y en a une en réalité. La puis-
sance de l'étude, 1- , est sa capacité à mettre en évi-
dence de façon significative une différence qui existe
réellement. Un de ses principaux composants, et celui
que l'on peut maîtriser, est le nombre des sujets inclus.
En diminuant le nombre de sujets sur lesquels porte
l'étude, puisque les tests portent sur des sous-groupes,
la puissance diminue, ce qui se traduit par une majora-
tion du risque de ne pas mettre en évidence une diffé-
rence qui existerait réellement. De façon paradoxale
pour un clinicien, ce n'est pas parce qu'on ne met pas en
évidence de différence significative sur une analyse en
sous-groupes, qu'il n'y en a pas en réalité.
- Le risque de raisonnement circulaire, de type tautolo-
gique, provient du fait que ce sont les données de la
même étude qui servent à tester, a posteriori, l'hypothè-
se à laquelle elles ont donné naissance.
D'une façon rale, la pratique se discute selon que l'on
est dans le cadre d'une étude prospective ou rétrospective.
- Dans une étude prospective, il existe plusieurs cas de
figures selon qu'il y a ou non une hypothèse faite a
priori sur l'intervention de covariables, et selon le
résultat de l'analyse base sur le critère principal.
Si l'intervention d'une covariable est suspectée a priori,
il est possible d'effectuer une randomisation des
patients avec une stratification sur cette covariable
(stade anatomo-pathologique par exemple) afin d'équi-
librer les effectifs par traitements. Mais la situation
devient ingérable s'il y a plus d'une ou deux cova-
riables.
Si l'analyse de base, sur le critère principal, montre une
d i fférence significative, la caracrisation de sous-
groupes est possible, de même que l'utilisation de
méthodes d'ajustement. Mais elle ne saurait conduire
qu'à des hypothèses à tester par une étude ultérieure.
Dans notre exemple, le bénéfice d'un traitement com-
biné fut de nouveau testé, de façon un peu différente
(castration chirurgicale plus Placebo ou Flutamide) par
la même équipe. Mais aucune différence significative
ne fut mise en évidence, ni dans le groupe principal, ni
dans le sous-groupe des patients "minimal disease" [3].
Si l'analyse de base ne montre pas de différence signi-
ficative, la recherche de sous-groupes, dans le but de
faire apparaître des différences, doit être rejetée, même
s'il est toujours possible de trouver des justifications
cliniques.
- Dans une étude rétrospective comment faire si nous
n'avons droit qu'à un seul groupe, ou à deux groupes
constitués dès le début, et à un seul test? Dans l'idéal, il
faudrait se poser une question avant d'isoler la série,
puis recueillir les données et les analyser avec un test
unique pour répondre à la question, c'est-à-dire tester
l'hypothèse initiale. Toutes modifications ultérieures de
la série en différents sous-groupes, "pour voir si ...",
n'est que "dragage" de données ou "bidouillage" statis-
tique a posteriori (statistiques post hoc). Plus on essaye
de covariables, de nouveaux sous-groupes, d'autres
tests, plus on majore le risque . Certes il existe des
méthodes qui tiennent compte de cette inflation du
risque , telle la correction de BONFERRONI [1]. Mais,
si trop de tests sont prévus, leur application conduit à
une telle inflation du risque que seules des évidences
deviennent significatives. La pratique de tests succes-
sifs peut se justifier dans certaines procédures statis-
tiques validées. Ainsi les analyses intermédiaires, par-
fois nécessaires, imposent une diminution du risque
consenti pour chacun des tests afin que sur l'ensemble
de l'étude le risque total soit celui recherché, le plus
souvent de = 0,05. Une procédure proche est aussi
prévue dans le cadre des analyses séquentielles.
Il existe aussi des méthodes d'analyses multivariées.
Mais leur logique est plus mathématique que statis-
tique. Le lien entre le résultat d'une analyse et le phé-
Pascal Glémain, Progrès en Urologie (2001), 11, 119-121
____________________
nomène biologique en cause est complexe et le niveau
de preuve très faible. Ces méthodes servent à alimenter
des discussions et parfois à faire ressortir des hypo-
thèses à tester (et pas seulement à vérifier).
En conclusion, il est possible d'utiliser les analyses en
sous-groupes à condition d'en connaître les limites, ce
qui revient à ne donner aux résultats que le statut d'hy-
pothèses et surtout pas celui de conclusions. D'une
façon générale, les tests statistiques doivent être aussi
peu nombreux que possible. Pour cela, il faut bien pré-
c i s e r, avant le recueil des données, la question à
résoudre, donc l'objectif principal puis le critère de
jugement, même sur une série rétrospective.
REFERENCES
1. BLAND J.M., ALTMAN D.G. Multiple significance tests: the
Bonferroni method. B.M.J, 1995, 310, 170.
2. CRAWFORD E. D., EISENGERGER M.A., McLEOD D.G., SPAUL-
DING J.T., BENSON R., DORR F.A., BLUMENSTEIN B.A.,
DAVIS M.A., GOODMAN P.J. A controlled trial of Leuprolide with
and without Flutamide in prostatic carcinoma. N. Engl. J. Med.,
1989, 321, 419-424 (erratum, N. Engl. J. Med., 1989, 321, 1420).
3. EISENGERGER M.A., BLUMENSTEIN B.A., CRAWFORD E. D.,
MILLER G., McLEOD D.G., LOEHRER P.J., WILDING G.,
SEARS K., CULKIN D.J., THOMPSON I.M., BUESCHEN A.J.
LOWE B.A. Bilateral orchiectomy with or without Flutamide for
metastatic prostatic cancer. N. Engl. J. Med., 1998, 339, 1036-1042.
4. GLEMAIN P. L'intention de traiter. Prog.Urol., 2000, 10, 1255-
1257.
____________________
SUMMARY
Dangers of subgroup analyses and multiple tests
Subgroup analyses, "retrospective" statistics, and multiple tests,
motivated by the search for explanatory covariables, are fre -
quently used in the medical literature. However, these data
manipulations induce modifications of the groups defined by
initial randomization, an unverifiable increase of the alpha risk,
a reduction of the power of the study and a risk of circular rea -
soning. Taking the example of an article concerning the hormo -
nal treatment of prostate cancer, several situations are discus -
sed, according to whether or not the study is prospective, whe -
ther or not the covariables are defined from the outset, and whe -
ther or not the results for the primary endpoint are significant.
Key-Words: Statistics, methodology, subgroup analyses, mul -
tiple statistical tests.
121
Pascal Glémain, Progrès en Urologie (2001), 11, 119-121
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!