MISE AU POINT Progrès en Urologie (2001), 11, 119-121 Dangers des analyses en sous-groupes et des tests multiples Pascal GLEMAIN Clinique Urologique, Hôtel Dieu, Nantes, France RESUME Les analyses en sous-groupes, les statistiques "a posteriori", les tests multiples, motivés par la recherche de covariables explicatives, sont fréquents dans la littérature médicale. Pourtant ces manipulations des données provoquent des modifications des groupes initiaux, une augmentation incontrôlable du risque alpha, une diminution de la puissance de l'étude et un risque de raisonnement circulaire. En prenant pour exemple un article concernant le traitement hormonal du cancer de la prostate, plusieurs situations seront abordées, selon qu'il s'agit d'une étude randomisée ou non, que la ou les covariables sont prévues dès le départ, que le résultat sur le critère principal est significatif ou non. Mots clés : Statistiques, méthodologie, analyses en sous-groupes, tests statistiques multiples, cancer de prostate, hormonothérapie. L’analyse en sous-groupes consiste à découper l'échantillon d'u ne étude, réparti le plus souvent en deux groupes selon la variable principale par exemple, le traitement, en groupes plus petits, selon des variables complémentaires, appelées covariables, censées rendre compte de l'hétérogénéïté de cet échantillon. La justification clinique est la recherche de caractéristiques cliniques ou biologiques, telles l'âge, le sexe, le stade de la maladie, autant de covariables, susceptibles d'influencer le résultat observé sur la variable principale. C'e st en quelque sorte une tentative de caractérisation du sous-groupe des patients "répondeurs" pour «affiner» l'indication thérapeutique. Bien que la différence entre les courbes soit significative, elle n'était pas importante. L'idée de rechercher un sous-groupe de patients répondeurs était donc tout à fait justifiée pour le clinicien. Ainsi les courbes de survies montraient un net avantage en faveur du traitement combiné dans le sous-groupe des patients les moins atteints au départ ("minimal disease"). Mais remarquons que cette observation ne figurait que dans la discussion et qu'aucun test statistique n'en évaluait le degré de signification. Les auteurs se basaient sur une "inspection of the stratified survival plot". Nous allons voir pourquoi ils ont eu raison de procéder ainsi et pourquoi leur observation ne pouvait pas être acceptée comme une conclusion bien qu'elle soit attractive pour le clinicien. Prenons l'exemple d'une étude qui fait référence dans le domaine du blocage androgénique "maximum", "combiné" ou "complet" [2]. Des patients porteurs de cancers de prostate métastasés, ont été répartis par tirage au sort entre deux bras thérapeutiques. Trois cents ont eu une castration par Leuprolide associé à un Placebo et 303 ont eu un traitement combiné par Leuprolide plus Flutamide. Les comparaisons des courbes de survies sans progression et de survies, selon la variable principale qu'est le traitement, ont montré des différences significatives, respectivement à p = 0,039 et p = 0,035 (courbes Kaplan Meier, test du log-rank) en faveur du traitement combiné. En préalable à ces résultats, les auteurs avaient vérifié qu'il n'y avait pas de différence entre les deux bras thérapeutiques pour des covariables "vérifiables" tels l'âge ou différentes autres caractéristiques cliniques et biologiques. Si une différence avait été mise en évidence, elle aurait pu être responsable d'un biais susceptible d'expliquer les différences entre les deux traitements. Plusieurs arguments méthodologiques s'opposent à la pratique des analyses en sous-groupes. Il s'agit de la modification des groupes issus du tirage au sort initial, de l'augmentation incontrôlable du risque alpha, de la diminution de la puissance de l'étude et du risque de raisonnement circulaire. - La modification des groupes issus du tirage au sort va à l'encontre du principe de l'analyse en intention de traiter [4]. L'extraction de sous-groupes va annuler le bénéfice du tirage au sort qui est le meilleur moyen de constituer des groupes comparables. Si ce principe n'est pas respecté, le lien de causalité entre la différen- Manuscrit reçu : juillet 2000, accepté : septembre 2000 Adresse pour correspondance : Dr. P. Glémain, Clinique Urologique, Hôtel Dieu, 44093 Nantes Cedex 01. e-mail : [email protected] 119 Pascal Glémain, Progrès en Urologie (2001), 11, 119-121 ce de traitement et le résultat observé est altéré et le risque d'observer une différence significative par hasard est majoré. Et ceci quelles que soient les justifications qui ont conduit à la formation de ces sousgroupes par la sélection de certains patients. Il peut s'agir des patients qui sont allés jusqu'au bout de l'étude, de ceux qui ont bien pris le traitement, des moins atteints, des plus jeunes etc. De plus, l'utilisation d'une covariable quantitative, comme l'âge, ou d'une variable qualitative à plusieurs classes, comme le stade clinique, permet toutes les manipulations possibles en faisant varier la limite de séparation et donc les regroupements, jusqu'à observer une différence entre deux sousgroupes - Dans une étude prospective, il existe plusieurs cas de figures selon qu'il y a ou non une hypothèse faite a priori sur l'intervention de covariables, et selon le résultat de l'analyse base sur le critère principal. Si l'intervention d'une covariable est suspectée a priori, il est possible d'effectuer une randomisation des patients avec une stratification sur cette covariable (stade anatomo-pathologique par exemple) afin d'équilibrer les effectifs par traitements. Mais la situation devient ingérable s'il y a plus d'une ou deux covariables. Si l'analyse de base, sur le critère principal, montre une différence significative, la caractérisation de sousgroupes est possible, de même que l'utilisation de méthodes d'ajustement. Mais elle ne saurait conduire qu'à des hypothèses à tester par une étude ultérieure. Dans notre exemple, le bénéfice d'un traitement combiné fut de nouveau testé, de façon un peu différente (castration chirurgicale plus Placebo ou Flutamide) par la même équipe. Mais aucune différence significative ne fut mise en évidence, ni dans le groupe principal, ni dans le sous-groupe des patients "minimal disease" [3]. - La majoration du risque augmente le risque de conclure à tort à une différence. La procédure normale consiste à formuler une hypothèse a priori, puis à recueillir des données et à tester cette hypothèse avec un risque en général de 5%. Il s'agit du risque consenti d'accepter la différence observée comme significative alors qu'elle peut être le fruit du hasard des fluctuations d'échantillonnage. Si d'autres tests sont effectués selon un découpage différent, déterminant des sous-groupes, le modèle servant de base au raisonnement statistique n'est plus applicable. Les tests ne sont plus indépendants puisqu'ils portent sur les mêmes données ou une partie d'entre elles, et sur la même expérience. Chacune de ces procédures, chaque nouveau test, majore le risque de sorte qu'il n'est plus possible de connaître le risque d'erreur si une différence significative fini par être observée. Si l'analyse de base ne montre pas de différence significative, la recherche de sous-groupes, dans le but de faire apparaître des différences, doit être rejetée, même s'il est toujours possible de trouver des justifications cliniques. - Dans une étude rétrospective comment faire si nous n'avons droit qu'à un seul groupe, ou à deux groupes constitués dès le début, et à un seul test? Dans l'idéal, il faudrait se poser une question avant d'isoler la série, puis recueillir les données et les analyser avec un test unique pour répondre à la question, c'est-à-dire tester l'hypothèse initiale. Toutes modifications ultérieures de la série en différents sous-groupes, "pour voir si ...", n'est que "dragage" de données ou "bidouillage" statistique a posteriori (statistiques post hoc). Plus on essaye de covariables, de nouveaux sous-groupes, d'autres tests, plus on majore le risque . Certes il existe des méthodes qui tiennent compte de cette inflation du risque , telle la correction de BONFERRONI [1]. Mais, si trop de tests sont prévus, leur application conduit à une telle inflation du risque que seules des évidences deviennent significatives. La pratique de tests successifs peut se justifier dans certaines procédures statistiques validées. Ainsi les analyses intermédiaires, parfois nécessaires, imposent une diminution du risque consenti pour chacun des tests afin que sur l'ensemble de l'étude le risque total soit celui recherché, le plus souvent de = 0,05. Une procédure proche est aussi prévue dans le cadre des analyses séquentielles. - La diminution de la puissance de l'étude provoquée par l'augmentation du risque , majore le risque de conclure à tort à l'absence de différence significative. Le risque est en quelque sorte l'inverse du risque . C'est le risque consenti de ne pas observer de différence significative alors qu'il y en a une en réalité. La puissance de l'étude, 1- , est sa capacité à mettre en évidence de façon significative une différence qui existe réellement. Un de ses principaux composants, et celui que l'on peut maîtriser, est le nombre des sujets inclus. En diminuant le nombre de sujets sur lesquels porte l'étude, puisque les tests portent sur des sous-groupes, la puissance diminue, ce qui se traduit par une majoration du risque de ne pas mettre en évidence une différence qui existerait réellement. De façon paradoxale pour un clinicien, ce n'est pas parce qu'on ne met pas en évidence de différence significative sur une analyse en sous-groupes, qu'il n'y en a pas en réalité. - Le risque de raisonnement circulaire, de type tautologique, provient du fait que ce sont les données de la même étude qui servent à tester, a posteriori, l'hypothèse à laquelle elles ont donné naissance. Il existe aussi des méthodes d'analyses multivariées. Mais leur logique est plus mathématique que statistique. Le lien entre le résultat d'une analyse et le phé- D'une façon générale, la pratique se discute selon que l'on est dans le cadre d'une étude prospective ou rétrospective. 120 Pascal Glémain, Progrès en Urologie (2001), 11, 119-121 nomène biologique en cause est complexe et le niveau de preuve très faible. Ces méthodes servent à alimenter des discussions et parfois à faire ressortir des hypothèses à tester (et pas seulement à vérifier). 3. EISENGERGER M.A., BLUMENSTEIN B.A., CRAWFORD E. D., MILLER G., McLEOD D.G., LOEHRER P.J., WILDING G., SEARS K., CULKIN D.J., THOMPSON I.M., BUESCHEN A.J. LOWE B.A. Bilateral orchiectomy with or without Flutamide for metastatic prostatic cancer. N. Engl. J. Med., 1998, 339, 1036-1042. En conclusion, il est possible d'utiliser les analyses en sous-groupes à condition d'en connaître les limites, ce qui revient à ne donner aux résultats que le statut d'hypothèses et surtout pas celui de conclusions. D'une façon générale, les tests statistiques doivent être aussi peu nombreux que possible. Pour cela, il faut bien préciser, avant le recueil des données, la question à résoudre, donc l'objectif principal puis le critère de jugement, même sur une série rétrospective. 4. GLEMAIN P. L'intention de traiter. Prog. Urol., 2000, 10, 12551257. ____________________ SUMMARY Dangers of subgroup analyses and multiple tests REFERENCES 1. BLAND J.M., ALTMAN D.G. Multiple significance tests: the Bonferroni method. B.M.J, 1995, 310, 170. 2. CRAWFORD E. D., EISENGERGER M.A., McLEOD D.G., SPAULDING J .T., BENSON R., DORR F.A., BLUMENSTEIN B.A., DAVIS M.A., GOODMAN P.J. A controlled trial of Leuprolide with and without Flutamide in prostatic carcinoma. N. Engl. J. Med., 1989, 321, 419-424 (erratum, N. Engl. J. Med., 1989, 321, 1420). Subgroup analyses, "retrospective" statistics, and multiple tests, motivated by the search for explanatory covariables, are fre quently used in the medical literature. However, these data manipulations induce modifications of the groups defined by initial randomization, an unverifiable increase of the alpha risk, a reduction of the power of the study and a risk of circular rea soning. Taking the example of an article concerning the hormo nal treatment of prostate cancer, several situations are discus sed, according to whether or not the study is prospective, whe ther or not the covariables are defined from the outset, and whe ther or not the results for the primary endpoint are significant. Key-Words: Statistics, methodology, subgroup analyses, mul tiple statistical tests. ____________________ 121