Dangers des analyses en sous-groupes et des tests

Téléchargement

MISE AU POINT Progrès en Urologie (2001), 11, 119-121

119

Dangers des analyses en sous-groupes et des tests multiples

Pascal GLEMAIN

Clinique Urologique, Hôtel Dieu, Nantes, France

L’analyse en sous-groupes consiste à découper l'échan-

tillon d'une étude, réparti le plus souvent en deux groupes

selon la variable principale par exemple, le traitement, en

groupes plus petits, selon des variables complémentaires,

appelées covariables, censées rendre compte de l'hétéro-

généïté de cet échantillon. La justification clinique est la

recherche de caractéristiques cliniques ou biologiques,

telles l'âge, le sexe, le stade de la maladie, autant de cova-

riables, susceptibles d'influencer le résultat observé sur la

variable principale. C'est en quelque sorte une tentative

de caractérisation du sous-groupe des patients "répon-

deurs" pour «affiner» l'indication thérapeutique.

Prenons l'exemple d'une étude qui fait référence dans le

domaine du blocage androgénique "maximum", "com-

biné" ou "complet" [2]. Des patients porteurs de can-

cers de prostate métastasés, ont été répartis par tirage

au sort entre deux bras thérapeutiques. Trois cents ont

eu une castration par Leuprolide associé à un Placebo

et 303 ont eu un traitement combiné par Leuprolide

plus Flutamide. Les comparaisons des courbes de sur-

vies sans progression et de survies, selon la variable

principale qu'est le traitement, ont montré des diffé-

rences significatives, respectivement à p = 0,039 et p =

0,035 (courbes Kaplan Meier, test du log-rank) en

faveur du traitement combiné. En préalable à ces résul-

tats, les auteurs avaient vérifié qu'il n'y avait pas de dif-

férence entre les deux bras thérapeutiques pour des

covariables "vérifiables" tels l'âge ou différentes autres

caractéristiques cliniques et biologiques. Si une diffé-

rence avait été mise en évidence, elle aurait pu être res-

ponsable d'un biais susceptible d'expliquer les diffé-

rences entre les deux traitements.

Bien que la différence entre les courbes soit significa-

tive, elle n'était pas importante. L'idée de rechercher un

sous-groupe de patients répondeurs était donc tout à

fait justifiée pour le clinicien. Ainsi les courbes de sur-

vies montraient un net avantage en faveur du traitement

combiné dans le sous-groupe des patients les moins

atteints au départ ("minimal disease"). Mais remar-

quons que cette observation ne figurait que dans la dis-

cussion et qu'aucun test statistique n'en évaluait le

degré de signification. Les auteurs se basaient sur une

"inspection of the stratified survival plot". Nous allons

voir pourquoi ils ont eu raison de procéder ainsi et

pourquoi leur observation ne pouvait pas être acceptée

comme une conclusion bien qu'elle soit attractive pour

le clinicien.

Plusieurs arguments méthodologiques s'opposent à la

pratique des analyses en sous-groupes. Il s'agit de la

modification des groupes issus du tirage au sort initial,

de l'augmentation incontrôlable du risque alpha, de la

diminution de la puissance de l'étude et du risque de

raisonnement circulaire.

- La modification des groupes issus du tirage au sort va

à l'encontre du principe de l'analyse en intention de

traiter [4]. L'extraction de sous-groupes va annuler le

bénéfice du tirage au sort qui est le meilleur moyen de

constituer des groupes comparables. Si ce principe

n'est pas respecté, le lien de causalité entre la différen-

Manuscrit reçu : juillet 2000, accepté : septembre 2000

Adresse pour correspondance : Dr.P.Glémain, Clinique Urologique, Hôtel Dieu,

44093 Nantes Cedex 01.

e-mail : [email protected]

RESUME

Les analyses en sous-groupes, les statistiques "a posteriori", les tests multiples, motivés

par la re c h e rche de covariables explicatives, sont fréquents dans la littérature médicale.

P o u rtant ces manipulations des données provoquent des modifications des groupes ini-

tiaux, une augmentation incontrôlable du risque alpha, une diminution de la puissance

de l'étude et un risque de raisonnement circ u l a i r e. En prenant pour exemple un art i c l e

concernant le traitement hormonal du cancer de la prostate, plusieurs situations sero n t

abordées, selon qu'il s'agit d'une étude randomisée ou non, que la ou les covariables sont

prévues dès le départ, que le résultat sur le critère principal est significatif ou non.

Mots clés : Statistiques, méthodologie, analyses en sous-groupes, tests statistiques multiples, cancer de

prostate, hormonothérapie.

120

ce de traitement et le résultat observé est altéré et le

risque d'observer une différence significative par

hasard est majoré. Et ceci quelles que soient les justifi-

cations qui ont conduit à la formation de ces sous-

groupes par la sélection de certains patients. Il peut

s'agir des patients qui sont allés jusqu'au bout de l'étu-

de, de ceux qui ont bien pris le traitement, des moins

atteints, des plus jeunes etc. De plus, l'utilisation d'une

covariable quantitative, comme l'âge, ou d'une variable

qualitative à plusieurs classes, comme le stade clinique,

permet toutes les manipulations possibles en faisant

varier la limite de séparation et donc les regroupe-

ments, jusqu'à observer une différence entre deux sous-

groupes

- La majoration du risque augmente le risque de

conclure à tort à une différence. La procédure normale

consiste à formuler une hypothèse a priori, puis à

recueillir des données et à tester cette hypothèse avec

un risque en général de 5%. Il s'agit du risque

consenti d'accepter la différence observée comme

significative alors qu'elle peut être le fruit du hasard

des fluctuations d'échantillonnage. Si d'autres tests sont

effectués selon un découpage différent, déterminant

des sous-groupes, le modèle servant de base au raison-

nement statistique n'est plus applicable. Les tests ne

sont plus indépendants puisqu'ils portent sur les mêmes

données ou une partie d'entre elles, et sur la même

expérience. Chacune de ces procédures, chaque nou-

veau test, majore le risque de sorte qu'il n'est plus

possible de connaître le risque d'erreur si une différen-

ce significative fini par être observée.

- La diminution de la puissance de l'étude provoquée

par l'augmentation du risque , majore le risque de

conclure à tort à l'absence de différence significative.

Le risque est en quelque sorte l'inverse du risque .

C'est le risque consenti de ne pas observer de différen-

ce significative alors qu'il y en a une en réalité. La puis-

sance de l'étude, 1- , est sa capacité à mettre en évi-

dence de façon significative une différence qui existe

réellement. Un de ses principaux composants, et celui

que l'on peut maîtriser, est le nombre des sujets inclus.

En diminuant le nombre de sujets sur lesquels porte

l'étude, puisque les tests portent sur des sous-groupes,

la puissance diminue, ce qui se traduit par une majora-

tion du risque de ne pas mettre en évidence une diffé-

rence qui existerait réellement. De façon paradoxale

pour un clinicien, ce n'est pas parce qu'on ne met pas en

évidence de différence significative sur une analyse en

sous-groupes, qu'il n'y en a pas en réalité.

- Le risque de raisonnement circulaire, de type tautolo-

gique, provient du fait que ce sont les données de la

même étude qui servent à tester, a posteriori, l'hypothè-

se à laquelle elles ont donné naissance.

D'une façon générale, la pratique se discute selon que l'on

est dans le cadre d'une étude prospective ou rétrospective.

- Dans une étude prospective, il existe plusieurs cas de

figures selon qu'il y a ou non une hypothèse faite a

priori sur l'intervention de covariables, et selon le

résultat de l'analyse base sur le critère principal.

Si l'intervention d'une covariable est suspectée a priori,

il est possible d'effectuer une randomisation des

patients avec une stratification sur cette covariable

(stade anatomo-pathologique par exemple) afin d'équi-

librer les effectifs par traitements. Mais la situation

devient ingérable s'il y a plus d'une ou deux cova-

riables.

Si l'analyse de base, sur le critère principal, montre une

d i fférence significative, la caractérisation de sous-

groupes est possible, de même que l'utilisation de

méthodes d'ajustement. Mais elle ne saurait conduire

qu'à des hypothèses à tester par une étude ultérieure.

Dans notre exemple, le bénéfice d'un traitement com-

biné fut de nouveau testé, de façon un peu différente

(castration chirurgicale plus Placebo ou Flutamide) par

la même équipe. Mais aucune différence significative

ne fut mise en évidence, ni dans le groupe principal, ni

dans le sous-groupe des patients "minimal disease" [3].

Si l'analyse de base ne montre pas de différence signi-

ficative, la recherche de sous-groupes, dans le but de

faire apparaître des différences, doit être rejetée, même

s'il est toujours possible de trouver des justifications

cliniques.

- Dans une étude rétrospective comment faire si nous

n'avons droit qu'à un seul groupe, ou à deux groupes

constitués dès le début, et à un seul test? Dans l'idéal, il

faudrait se poser une question avant d'isoler la série,

puis recueillir les données et les analyser avec un test

unique pour répondre à la question, c'est-à-dire tester

l'hypothèse initiale. Toutes modifications ultérieures de

la série en différents sous-groupes, "pour voir si ...",

n'est que "dragage" de données ou "bidouillage" statis-

tique a posteriori (statistiques post hoc). Plus on essaye

de covariables, de nouveaux sous-groupes, d'autres

tests, plus on majore le risque . Certes il existe des

méthodes qui tiennent compte de cette inflation du

risque , telle la correction de BONFERRONI [1]. Mais,

si trop de tests sont prévus, leur application conduit à

une telle inflation du risque que seules des évidences

deviennent significatives. La pratique de tests succes-

sifs peut se justifier dans certaines procédures statis-

tiques validées. Ainsi les analyses intermédiaires, par-

fois nécessaires, imposent une diminution du risque

consenti pour chacun des tests afin que sur l'ensemble

de l'étude le risque total soit celui recherché, le plus

souvent de = 0,05. Une procédure proche est aussi

prévue dans le cadre des analyses séquentielles.

Il existe aussi des méthodes d'analyses multivariées.

Mais leur logique est plus mathématique que statis-

tique. Le lien entre le résultat d'une analyse et le phé-

Pascal Glémain, Progrès en Urologie (2001), 11, 119-121

____________________

nomène biologique en cause est complexe et le niveau

de preuve très faible. Ces méthodes servent à alimenter

des discussions et parfois à faire ressortir des hypo-

thèses à tester (et pas seulement à vérifier).

En conclusion, il est possible d'utiliser les analyses en

sous-groupes à condition d'en connaître les limites, ce

qui revient à ne donner aux résultats que le statut d'hy-

pothèses et surtout pas celui de conclusions. D'une

façon générale, les tests statistiques doivent être aussi

peu nombreux que possible. Pour cela, il faut bien pré-

c i s e r, avant le recueil des données, la question à

résoudre, donc l'objectif principal puis le critère de

jugement, même sur une série rétrospective.

REFERENCES

1. BLAND J.M., ALTMAN D.G. Multiple significance tests: the

Bonferroni method. B.M.J, 1995, 310, 170.

2. CRAWFORD E. D., EISENGERGER M.A., McLEOD D.G., SPAUL-

DING J.T., BENSON R., DORR F.A., BLUMENSTEIN B.A.,

DAVIS M.A., GOODMAN P.J. A controlled trial of Leuprolide with

and without Flutamide in prostatic carcinoma. N. Engl. J. Med.,

1989, 321, 419-424 (erratum, N. Engl. J. Med., 1989, 321, 1420).

3. EISENGERGER M.A., BLUMENSTEIN B.A., CRAWFORD E. D.,

MILLER G., McLEOD D.G., LOEHRER P.J., WILDING G.,

SEARS K., CULKIN D.J., THOMPSON I.M., BUESCHEN A.J.

LOWE B.A. Bilateral orchiectomy with or without Flutamide for

metastatic prostatic cancer. N. Engl. J. Med., 1998, 339, 1036-1042.

4. GLEMAIN P. L'intention de traiter. Prog.Urol., 2000, 10, 1255-

1257.

____________________

SUMMARY

Dangers of subgroup analyses and multiple tests

Subgroup analyses, "retrospective" statistics, and multiple tests,

motivated by the search for explanatory covariables, are fre -

quently used in the medical literature. However, these data

manipulations induce modifications of the groups defined by

initial randomization, an unverifiable increase of the alpha risk,

a reduction of the power of the study and a risk of circular rea -

soning. Taking the example of an article concerning the hormo -

nal treatment of prostate cancer, several situations are discus -

sed, according to whether or not the study is prospective, whe -

ther or not the covariables are defined from the outset, and whe -

ther or not the results for the primary endpoint are significant.

Key-Words: Statistics, methodology, subgroup analyses, mul -

tiple statistical tests.

121

Pascal Glémain, Progrès en Urologie (2001), 11, 119-121

1 / 3 100%

Documents connexes

Tableau 1

2015 - 2016

Feuille 2

UCL - Gestion des ressources humaines [ LLSMG2054 ]

Sous-groupes distingués

Mathématiques 3

Z et Z/n

test sur les groupes

Algèbre générale - Dartmouth Math Home

H1 × H2 −→ G (x1, x2) ↦−→ = e, H1 ∩ H2 = {e} ou H1 = H2.

Sous-groupes de Rn

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Dangers des analyses en sous-groupes et des tests

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Dangers des analyses en sous-groupes et des tests

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib