Tests paramétrique et non paramétrique

publicité
Tests paramétrique et non paramétrique
La plupart des tests statistiques sont construits à partir d'hypothèses sur les
distributions des variables étudiées chez les individus. Dans un grand nombre de
situations, la distribution utilisée est la loi normale. Si l'on dit : la glycémie suit
une loi normale, cela signifie que la densité de probabilité de la variable glycémie
est gaussienne ou normale. D'autres distributions de probabilités peuvent être
plus adaptées comme par exemple une distribution binomiale ou une distribution
de Poisson pour les variables catégorielles. L'utilisation d'un test paramétrique
suppose de connaître la loi (ou la famille de lois) sous-jacente et que les densités
de probabilités associées dépendent de paramètres donnés de la loi tels la
moyenne et la variance pour la loi normale [19]. Lorsque la famille à laquelle
appartiennent les densités de probabilités est inconnue, on optera pour un test
non paramétrique.
Par exemple, le test de comparaison de 2 moyennes sur des petits échantillons
suppose que la loi parente soit normale. Si on ne peut le prouver directement ou
par transformation de variable, on utilisera alors par exemple un test de rang. Ce
type de tests ne traite pas des valeurs numériques mais de leurs rangs. On
rappellera que le terme non-paramétrique s'applique aux méthodes statistiques
utilisées et que ce n'est pas une propriété des données [19]. Un exemple de
tests paramétriques et des équivalents non paramétriques est donné au tableau
2.
Tableau 2 : Exemple de tests paramétriques et de leurs équivalents non paramétriques
Test paramétrique
Test non paramétrique
Test t de Student non apparié
Test de Mann et Whitney
Test t de Student apparié
Test de Wilcoxon
Analyse de variance
Test de Kruskall et Wallis*
Corrélation linéaire
Test de Spearman
* cas particulier de 2 variables
Type de variable considéré
On distingue plusieurs types de variables, schématiquement les variables
qualitatives et les variables quantitatives. Les variables qualitatives comprennent
les variables nominales et ordinales. Les variables nominales ont deux modalités
(homme/femme), ou plus de deux modalités (insuffisance rénale aiguë
prérénale/rénale/post rénale). Si il y a une structure d'ordre entre les catégories
d'une variable on parle de variable ordinale (stades TNM des tumeurs). La
différence entre deux catégories adjacentes n'est pas forcément homogène sur
toute l'étendue de la variable (score d'Apgar). Les variables qualitatives sont
généralement représentées sous forme de pourcentages ou de proportions.
Les variables quantitatives sont de deux types, soient continues lorsqu'elles
peuvent prendre toutes les valeurs d'un continuum (âge, glycémie, pression
artérielle), soient discrètes lorsqu'elles prennent des valeurs entières (nombre de
transfusions, nombre de grossesses). Elles peuvent aussi être censurées lorsqu'il
s'agit d'analyser des durées. Si au cours du suivi l'événement étudié (décès, ou
récidive, ou rechute, …) n'est pas survenue la variable est dite censurée.
Selon le type de variable analysé, des tests différents sont utilisés, un test du
Chi2 par exemple pour comparer des pourcentages, un test t de Student pour la
comparaison de deux moyennes de lois normales.
Définition des hypothèses testées.
Nous l'avons vu, il est nécessaire de définir les conditions dans lesquelles le ou
les tests statistiques seront employés. Ceci impose donc de définir a priori les
hypothèses testées, et les risques  et  consentis. On se donne ensuite une
valeur (cliniquement pertinente) de  pour calculer le nombre d'observations
nécessaire qu'il faudra étudier.
On définira dans le protocole si des analyses intermédiaires seront réalisées et
leur périodicité. De la même façon, des tests appropriés doivent être choisis en
cas de comparaisons multiples.
Vérification des conditions d'application des tests choisis
La plupart des tests statistiques ne sont utilisables que dans des conditions bien
définies, desquelles on peut être autorisé ou non à s'écarter. Il s'agit de la nature
de la distribution de la variable, des effectifs, ou de conditions plus particulières
comme l'égalité des variances, l'indépendances ou non des variables, ...
Pour les variables a priori normales (une pression artérielle, une glycémie), on
vérifie si l'hypothèse de normalité de la distribution est acceptable. Plusieurs
procédures permettent d'accomplir cette tâche. Deux situations extrêmes
peuvent être illustrées. Soit l'effectif considéré est faible et la puissance associée
sera faible. Soit l'effectif est important, et les tests de normalité ont des chances
de mettre en évidence un écart à la normalité modeste (mais statistiquement
significatif) qui n'aurait pas vraiment gêné l'application de tests paramétriques.
Aussi, de nombreux auteurs conseillent-ils de se contenter de vérifications
graphiques de la normalité. Il est probablement nécessaire de limiter cette
vérification aux situations où la nature même de la variable fait suspecter une
distribution non normale. Des transformations de variables, par exemple de type
logarithmique (log x) ou inverse
distribution normale.
, peuvent permettre de se ramener à une
Séries appariées
La comparaison de deux moyennes (de lois normales) entre deux groupes de
patients peut faire appel au test t de Student. Que se passe-t-il si ces moyennes
proviennent du même groupe, mesurées à deux temps différents ? On dit que
ces mesures sont appariées. L'utilisation du test t de Student usuel n'est plus
approprié car les deux séries de mesure ne sont pas indépendantes sur le plan
statistique. Il convient d'utiliser un test qui prenne en compte le fait que la
mesure a été effectuée deux fois sur les mêmes patients comme un test t de
Student pour séries appariées (ou un test de Wilcoxon dans le cas non
paramétrique). Dans le cas de plusieurs mesures
temps, des stratégies variées peuvent être retenues
Comparaisons entre plusieurs traitements
répétées au cours du
La deuxième situation concerne la comparaison de plusieurs traitements par
exemple la comparaison de trois agents anesthésiques (B, C et D) à un agent
anesthésique A sur l'incidence des vomissements post opératoires. Cette
incidence est de 40 % avec B, 30 % avec C, et 20 % avec D (n=100 dans
chaque groupe). L'analyse statistique réalisée en comparant A vs B, A vs C, A vs
D conduit à conclure que seul D est différent de A. Du fait des comparaisons
multiples, il faut bien noter que le risque de première espèce consenti n'est plus
de 0,05 mais de 0,11 (3 comparaisons). Si l'on comparait 100 agents
anesthésiques à l'agent A, avec un risque
, on pourrait attendre que 5
d'entre eux soient différents de A, seulement par hasard ! L'analyse statistique
doit tenir compte des comparaisons multiples afin de garantir in fine un risque
global de première espèce de 0,05 [23].
Le risque  étant considéré comme essentiel dans les tests d'hypothèses, il est
important de s'assurer que le risque consenti lors de l'analyse est effectivement
celui qui était prévu initialement. Cinq situations seront examinées.
A partir du moment où la comparaison statistique est effectuée sur plusieurs
moyennes (plus de 2), il n'est pas possible d'utiliser un test prévu pour comparer
deux moyennes une seule fois. Il convient d'utiliser une méthode statistique qui
garantisse la conservation du risque
. Sans entrer dans le détail des
nombreux choix possibles, on peut indiquer quelques pistes. L'analyse de
variance qui permet sous certaines hypothèses (mesures obtenues dans des
conditions indépendantes, données de moyennes distribution gaussienne, même
variance entre groupes) de tester si n moyennes différentes entre elles. Si c'est
le cas on peut s'interroger alors pour savoir quelle moyenne diffère de quelle
autre. On comprendra qu'en fonction du nombre de groupes testés, le nombre de
comparaisons peut être important. Aussi des tests particuliers ont été proposés
pour la réalisation de ces comparaisons dites a posteriori ou post hoc. Si on
compare plusieurs groupes à un groupe de référence on utilisera le test de
Dunnett. Si on compare plusieurs groupes entre eux, on utilisera un test de
Tukey ou un test de Newman-Keuls. Il est toujours possible aussi d'utiliser la
correction dite de Bonferroni. Elle consiste à diviser le risque  par le nombre n
de comparaisons à tester. Si on compare 3 valeurs de pression artérielle entre
elles (1 avec 2, 1 avec 3 et 2 avec 3), le risque  sera de
. Si une
valeur de p est inférieure à 0,016, on écrira alors que la différence est
significative au risque de 0,05.
Mesures répétées
Imaginons que nous comparions les vomissements induits par A ou B toutes les
heures pendant les 24 premières heures post-opératoires. Là encore, si on désire
maintenir un risque  de 0,05, il faut tenir compte du fait que 24 comparaisons
successives ont été effectuées, ou se contenter d'une analyse globale sur
l'ensemble des 24 heures. Plusieurs stratégies d'analyse sont envisageables dans
le cadre de mesures répétées [22].
Analyse par sous-groupes
Nous avons comparé l'incidence de vomissements entre A et B et conclu à
l'absence de différence significative. Il vient alors l'idée de répartir les patients en
différents sous-groupes (hommes et femmes, patients de plus ou moins de 60
ans, suivant la classe ASA (American Society of Anaesthesiology) ou le type de
chirurgie réalisé). Là encore, l'analyse par sous-groupes expose au risque de
conclure à tort à une différence significative si des tests séparés sont réalisés par
sous-groupes et doit donc tenir compte de la multiplicité des comparaisons. De
plus, une analyse par sous-groupes suppose que ceux-ci soient comparables
(selon A et B), que ceci ait été prévu à l'avance dans l'élaboration du protocole et
que les interactions soient prises en compte dans l'analyse. Une interaction, au
sens statistique, décrit une situation pour laquelle l'impact d'un facteur sur la
réponse mesurée dépend de la valeur d'un autre facteur [24, 25, 26].
Critères de jugement multiples
Dans une même étude comparant les agents anesthésiques A et B, nous
étudions plusieurs paramètres différents (dont l'incidence des vomissements) au
risque =0,05. La réalisation de tests séparés pour chaque critère de jugement
augmente le risque de faux résultats positifs [27]. C'est pourquoi une bonne
étude s'efforce de ne répondre qu'à une seule question principale (l'IEC ralentit-il
la progression de l'IRC?) avec un seul critère de jugement (la mesure du débit de
filtration glomérulaire), dit critère de jugement principal. Si toutefois l'on veut
tenir compte de plusieurs critères de manière concomitante il est possible de
définir à l'avance des priorités dans l'analyse des critères de jugement. Un critère
est par exemple privilégié par rapport aux autres. Il est possible aussi de
combiner la réponse à plusieurs critères dans un score global. Toutefois, la
constitution d'un tel score est une tâche délicate en particulier pour fixer le poids
relatif de chacun des critères de jugement au sein de ce score global.
C'est pour ces raisons qu'une bonne analyse statistique doit être définie a priori
et non a posteriori. La méthodologie statistique d'une investigation clinique ou
expérimentale doit être définie lors de la conception initiale du projet. L'avis d'un
statisticien est envisagé selon le degré de complexité du problème abordé dès la
conception du projet.
Analyses intermédiaires
Dans un protocole où l'on compare deux agents anesthésiques, une analyse est
réalisée tous les 50 patients inclus. Ce type d'analyse séquentielle groupée
permet de ne pas prolonger indûment une étude dont les résultats apparaissent
significatifs avant que l'ensemble de l'effectif total prévu ait été inclus. Après 200
patients inclus, les vomissements sont survenus chez 40 patients ayant reçu A et
chez 25 patients ayant reçu B. On rejette l'hypothèse nulle et on conclut que B
est meilleur que A. Cependant, pour cette analyse finale, les 3 analyses
précédentes infructueuses ont été oubliées. Tous calculs faits, le risque de
première espèce consenti (tableau 4) n'est pas de 0,05 mais en fait de 0,13 [27].
L'analyse statistique aurait dû tenir compte des comparaisons multiples
effectuées dans cet essai et retenir une valeur nominale de  de 0,018 (tableau
5). L'utilisation d'une valeur seuil identique pour chaque analyse intermédiaire a
l'avantage de la simplicité sinon celui de l'optimisation [28]. Ces analyses
intermédiaires doivent être prévues a priori dans le protocole d'un essai ce qui
était le cas de l'étude ramipril [8]. Cinq analyses intermédiaires avaient été
prévues, une conclusion a pu être portée à la deuxième analyse pour le strate 2.
Tableau 4 : Tests de signification répétés à intervalles équidistants dans le cas de 2
traitements,
pour une réponse gausienne et de variance connue [27].
Nombre de tests répétés
au seuil de 5 %
Niveau global de signification
1
0.05
2
0.08
3
0.11
4
0.13
5
0.14
10
0.19
20
0.25
50
0.32
100
0.37
Tableau 5 : Niveau de signification requis dans le cas de tests bilatéraux répétés pour un
seuil global de =5 % (réponse de distribution normale avec une variance connue pour
un  global de 0.05 [27].
Nombre de tests
Valeur  pour chaque test
2
0.029
3
0.022
4
0.018
5
0.016
10
0.0106
Puissance d'un test et nombre de sujets nécessaire
Seulement 30 % d'un échantillon de 71 essais thérapeutiques publiés dans 20
journaux en 1978-79 étaient de taille suffisante pour avoir 90 % de chances de
mettre en évidence une différence de 50 % d'efficacité entre traitements [13].
Dix ans plus tard, selon une approche analogue, les auteurs constataient le
même phénomène lié à une inadaptation de la puissance de l'analyse par
insuffisance d'effectif. L'absence d'évidence d'un effet n'est pas l'évidence de
l'absence de cet effet. Ne pas mettre en évidence un effet dans un échantillon ne
signifie pas qu'aucun effet n'existe en réalité. Tout essai thérapeutique doit faire
état du calcul préalable du nombre de patients nécessaire et de la puissance de
l'essai. C'est un des critères de bonne pratique méthodologique
Puissance d'un test, différence attendue et variance de l'effet
Sur la figure 2, trois situations sont représentées. La première (figure 2a) décrit
un test d'hypothèse et la distribution sous H0 et sous H1 des moyennes de 2
groupes de sujets représentées en coordonnées normales centrées réduites. Si
l'on diminue la différence à observer de 3 (figure 2a) à 1 (figure 2b) sans
changer la variance des distributions, on note que  croit et que la puissance du
test
diminue. Maintenant pour une même différence de 3, si on modifie la
variance on note que la puissance du test
figure 2a.
augmente par rapport à la
Ainsi, faut-il avoir à l'esprit l'impact que peuvent avoir d'une part la différence
que l'on souhaite observer entre 2 traitements et la variance de l'effet sur la
puissance du test. La conséquence est le nombre de sujets nécessaire à inclure
dans un essai selon les hypothèses retenues pour pouvoir conclure avec une
puissance satisfaisante c'est à dire avec une probabilité convenable de rejeter H0
si H1 est vraie.
Nombre de sujets nécessaire
Le nombre de sujets à inclure dans un essai est une fonction de 4 composantes :
La réponse vis à vis du traitement de référence, le bénéfice attendu du nouveau
traitement, le niveau de signification et la puissance.
Notons c le taux de réponse vis à vis d'un traitement de référence. Il s'agit de la
valeur de la population qu'il faut distinguer de la valeur qui sera obtenue avec
l'essai, qui sera notée pc. L'expérience acquise avec des patients antérieurs et
l'étude de la littérature permet généralement de fournir une estimation d'une
précision raisonnable. Supposons que le traitement de référence donne 40 % de
réponses favorables. Il est nécessaire de définir l'amplitude du bénéfice attendu
avec le nouveau traitement. Si on attend que le nouveau traitement apporte 50
% de réponses favorables, alors la différence attendue entre les deux
traitements est de 10 %. Bien sûr on ne sait pas a priori si le nouveau traitement
aura l'effet escompté. Cependant l'essai sera réalisé de telle sorte que si ce
bénéfice existe on ait une chance raisonnable de le mettre en évidence.
Le risque de 1ère espèce , c'est à dire la probabilité de rejeter l'hypothèse nulle
alors qu'elle est vraie, est choisi a priori ainsi que le caractère uni ou bilatéral du
test retenu. La puissance
, c'est à dire la probabilité de ne pas rejeter
l'hypothèse alternative quand elle est vraie est choisie selon le type d'essai
réalisé, généralement de 80 % ou plus.
A partir des combinaisons possibles de ces éléments on peut en déduire le
nombre de sujets nécessaire. Ainsi pour
, avec
et
,
si la différence attendue est de 10 % le nombre de sujets nécessaire est voisin
de 400 par groupes. Si la différence attendue est de 30 % alors le nombre de
sujets nécessaire est voisin de 40 par groupes. L'effectif retenu dépend des choix
réalisés a priori, lors de la conception du protocole.
Règle des 2 essais et puissance consentie
Les résultats des essais cliniques doivent être reproductibles et démontrables.
Ceci a conduit la Food and Drug Administration à exiger deux essais cliniques
concordants pour démontrer l'efficacité d'un traitement. Quel est l'impact d'une
telle décision sur la puissance? Supposons que la puissance de chaque essai soit
de 0,80, la puissance globale des deux essais est :
. Ainsi, la
probabilité de détecter une différence cliniquement pertinente est de l'ordre de
2/3. Si l'on souhaite une puissance globale effective de 0,80 pour les 2 essais,
alors la puissance à retenir pour chaque essai est de 0,90 [15].
Test unilatéral ou bilatéral
Le plus souvent, l'hypothèse nulle H0 correspond à l'égalité des effets des
traitements et l'hypothèse alternative H1 correspond à l'inégalité des effets. Dans
notre exemple, l'effet du traitement a été comparé à un placebo. La littérature
suggérait l'intérêt d'un effet des IEC, cependant aucune étude ne permettait de
trancher, aussi les auteurs ont considéré que le traitement pouvait être différent
du placebo sans préjuger du sens de cette différence. On dit alors que le test est
effectué en situation bilatérale (14). La figure 3a représente la distribution de la
différence entre deux traitements A et B, sous l'hypothèse nulle. La zone
d'acceptation de l'hypothèse nulle est comprise entre les deux zones hachurées
latérales qui constituent la zone de rejet de l'hypothèse nulle. Il existe d'autres
situations : A est un placebo et B un anti-émétique. Il est possible de ne tester
que l'éventualité où l'incidence des vomissements est plus faible avec B qu'avec
A. Dans ce cas le test réalisé est dit unilatéral. Pour un test avec une distribution
normale, le seuil  de 5 % pour un test bilatéral est de 1,96. Pour un test
unilatéral il est de 1,64. D'une manière générale, il est recommandé d'utiliser les
tests statistiques en situation bilatérale, à moins d'avoir des raisons précises de
choisir une situation unilatérale qu'il faudra justifier dans le protocole [15].
Dans certaines circonstances, l'utilisation de tests unilatéraux est judicieuse.
L'industriel qui effectue un criblage de nombreuses molécules potentiellement
actives réalisera ces études de manière unilatérale. De manière pragmatique
dans une phase de dépistage, l'objectif est ici de ne pas ignorer une molécule
potentiellement active. Les hypothèses généralement formulées dans le cadre du
développement du médicament sont les suivantes (où l'on note  la différence
d'effet entre les traitements) :
et
. Le test est de type
unilatéral. On notera que la notion d'hypothèse nulle ne signifie pas la nullité de
la quantité . La valeur de  sous l'hypothèse nulle est une fonction du problème
posé.
On réalise également des tests unilatéraux dans les essais d'équivalence [16,
17]. L'hypothèse que l'on souhaite tester n'est pas l'efficacité différentielle de
deux (ou plusieurs) traitements mais leur équivalence. Par exemple, on veut
montrer qu'un nouveau traitement B d'emploi plus aisé, présentant moins
d'effets secondaires ou moins coûteux, est équivalent à un traitement de
référence A. Dans ces essais d'équivalence, il convient de spécifier , la plus
grande différence cliniquement acceptable entre les deux traitements. Le
nouveau traitement B sera considéré comme non équivalent au traitement A de
référence si l'hypothèse nulle
est vraie. Le traitement B sera
considéré comme équivalent à A si l'hypothèse alternative
retenue.
est
Il est donc important de déterminer avant de faire un test statistique, quelle est
l'hypothèse nulle et quelle est l'hypothèse alternative, et de choisir si le test est
effectué en situation unilatérale ou bilatérale.
Figure 3 : Zone d'acceptation et zone de rejet pour une distribution normale avec un
risque de première espèce de 0.05, sous l'hypothèse nulle H0.
Figure 3a : Test bilatéral
Figure 3b : Test unilatéral
Intervalles de confiance
Un test d'hypothèse s'inscrit dans une procédure décisionnelle pour rejeter
l'hypothèse nulle et avec quelle force. Si le test d'hypothèse renseigne sur la
force de l'évidence qu'un traitement est meilleur qu'un autre, en revanche il ne
dit pas de combien. Aussi l'analyse peut-elle être complétée par des méthodes
comme l'estimation des limites de confiance.
L'intervalle de confiance est défini comme un ensemble de valeurs qui inclut la
vraie valeur de la population avec un degré de confiance donné. Par exemple,
l'intervalle de confiance à 95 % de la moyenne d'un échantillon représente
l'étendue des valeurs qui contient la vraie valeur de la moyenne dans la
population avec une probabilité de 95 %.
Dans un certain nombre d'études, l'objectif n'est pas de tester une hypothèse
particulière sur un paramètre mais d'estimer un paramètre. C'est par exemple
l'estimation d'une moyenne ou d'un odds ratio et leurs intervalles de confiance
respectifs. Si un échantillon est de grande taille, une différence peut être
statistiquement significative, même si elle est petite. Un intervalle de confiance
qualifiera l'amplitude de cette différence. Le rôle joué par les effectifs est
facilement appréciable avec les intervalles de confiance. Ce n'est pas toujours le
cas avec un test d'hypothèse. Certains journaux privilégient la présentation des
résultats sous la forme d'intervalles de confiance [18].
 : le risque de première espèce
Le risque  de première espèce est à la probabilité de rejeter l'hypothèse H0 (et
donc d'accepter l'hypothèse alternative H1), alors que H0 est vraie. C'est la pierre
de touche des tests statistiques [9]. En effet, la principale crainte de
l'investigateur dans une démarche expérimentale est de conclure à tort à la
validité de l'hypothèse alternative H1.
La valeur seuil de  communément admise pour rejeter entre H0 est de 5%.
Cette valeur est arbitraire. Il n'existe pas en effet de différence "fondamentale"
entre
et
. Certains auteurs expliquent ce choix par le travail
historique de Fisher en 1925. Il proposait dans ses tables des valeurs
particulières de  et notamment celle de 0,05 [10]. De nombreux livres de
statistiques ne donnent que des tables valables uniquement pour
,
ignorant d'autres possibilités. D'autres auteurs insistent sur l'utilisation fréquente
de
dans les études de contrôle de qualité où l'accent est mis sur la
performance de l'outil de décision lors de tests fréquemment répétés
Principes généraux d'un test d'hypothèse
Un test d'hypothèse en statistique est utilisé comme une règle de décision entre
deux hypothèses. Il sous-entend une inférence c'est à dire un raisonnement par
lequel on admet une proposition en vertu de sa liaison avec d'autres propositions
déjà tenues pour vraies. Du résultat d'une expérience réalisée sur un échantillon
fini d'observations issu d'une population source, on cherche à en déduire que les
résultats ainsi observés sont «applicables» à une population plus large dite
population cible (figure 1). Prenons un exemple. Un essai thérapeutique a été
réalisé chez des sujets en insuffisance rénale chronique (IRC) présentant une
néphropathie non diabétique, associée à une protéinurie. On cherchait à savoir si
un inhibiteur de l'enzyme de conversion, le ramipril ralentirait la progression de
l'IRC par rapport à un placebo, indépendamment du contrôle tensionnel réalisé
par un traitement antihypertenseur conventionnel [8]. Il s'agit d'un essai
thérapeutique prospectif en double aveugle, 352 patients ont été inclus et
classés selon le niveau de protéinurie, de 1 à 3 g/24 h (strate 1) ou supérieur ou
égal à 3 g/24 h (strate 2). Le traitement était randomisé, ramipril versus
placebo, en sus d'un traitement antihypertenseur conventionnel pour obtenir une
pression artérielle diastolique inférieure à 90 mm Hg. Le critère de jugement
principal était la diminution du débit de filtration glomérulaire (DFG). A la
seconde analyse intermédiaire, la différence de progression de l'IRC entre le
groupe ramipril et le groupe placebo, pour la strate 2 était significative. Le panel
d'expert a alors décidé de lever l'aveugle et de réaliser l'analyse finale dans cette
strate. Au moins 2 mesures évolutives du DFG étaient disponibles pour 56 sujets
sous ramipril et pour 61 sujets sous placebo. La diminution du DFG par mois
était significativement plus basse dans le groupe ramipril que dans le groupe
placebo.
L'essai a été conçu à partir d'un échantillon issu de la population des insuffisants
rénaux chroniques qui consultaient dans les centres recrutant pour l'étude
(population source). L'essai terminé on souhaite inférer que les résultats
observés sur cet échantillon de la population source sont "applicables" à la
population des insuffisants rénaux partageant les mêmes caractéristiques que
celles choisies pour l'inclusion dans l'essai (population cible).
La question posée est celle de l'efficacité de l'IEC par rapport au placebo sur la
progression de l'IRC. La différence observée peut-elle être attribuée à une
différence réelle d'activité ou est-elle liée au hasard ? La majorité des analyses
statistiques font appel à des tests. Notons  la différence théorique des effets de
l'IEC par rapport au placebo. On peut définir une première hypothèse dite
hypothèse nulle, notée H0, pour laquelle  est égal à 0. En complément on peut
définir une seconde hypothèse dite hypothèse alternative que l'on veut
démontrer, notée hypothèse H1. Celle-ci stipule, par exemple, que  est différent
de zéro : les effets des 2 traitements sont différents sur la progression de l'IRC.
On remarquera que l'hypothèse alternative correspond à une multitude de
situations couvrant toutes les possibilités où la différence  des effets entre l'IEC
et le placebo est distincte de 0. Choisir entre H0 et H1 c'est prendre le risque de
se tromper par rapport à la vérité que l'on cherche à découvrir. En effet, il est
sous-entendu que soit H0 est vraie, soit H1 est vraie. Le choix entre H0 et H1 est
donc associé à un risque de se tromper lui-même quantifié par deux probabilités
:
- le risque de première espèce, , qui est la probabilité de rejeter H0 alors que
H0 est vraie ;
- le risque de deuxième espèce, , qui est la probabilité de ne pas rejeter H0
alors que H1 est vraie.
Un test statistique guide un choix décisionnel sur des bases que l'on espère les
plus objectives possibles. Des choix sont cependant opérés relativement au type
de critère principal de jugement retenu et à la façon de le mesurer, à l'ampleur
de la différence des effets attendus entre les traitements comparés, au risque de
première espèce , à la puissance du test
test, et au choix du test statistique retenu.
, au caractère uni ou bilatéral du
Figure 1 : Principe général de l'inférence en statistique.
Loi de probabilités
Plusieurs lois de probabilité permettent de s'adapter aux différentes situations
rencontrées dans la pratique, selon la variable étudiée et la population
concernée. Leur rôle est d'associer une probabilité de survenue à chaque
événement possible. Ces lois permettent de représenter les distributions
observées (la distribution des taux de LDL-cholestérol dans la population des
patients coronariens par exemple) et autorisent des calculs statistiques.
Parmi les plus répandues, la loi normale [6] revêt une grande importance en
statistique. C'est une loi de probabilité continue dépendante de deux paramètres,
l'espérance (µ) et la variance (2). On dit que la loi normale est centrée lorsque
la moyenne est égale à zéro et réduite lorsque la variance est égale à 1. Dans
tous les cas, on peut se ramener à une loi centrée réduite en effectuant un
changement de variable [7].
La loi binomiale est elle aussi, fréquemment utilisée dans le cas des variables
dichotomiques. L'utilisation de cette loi permet de répondre par exemple à la
question suivante : dans une population donnée, une certaine proportion
d'individus est atteinte d'une maladie, quelle est la probabilité que dans un
échantillon de taille n tiré de cette population, m individus soient malades ? Dans
l'étude qui nous intéresse cela revient à calculer la probabilité de trouver m
sujets ayant eu infarctus du myocarde dans une population de coronariens ?
Dans la population, l'alternative est : être malade (en proportion p) ou ne pas
être malade (en proportion 1-p).
Lorsque la survenue d'un événement est rare, la loi de Poisson est utilisée. Cette
loi appelée quelquefois loi des petites probabilités, s'applique généralement en
pharmacovigilance, lorsque les effets secondaires sont rares (réactions
allergiques à une classe d'antibiotique, BCGites après vaccination par le BCG,
thrombopénie à l'héparine, etc…). Une information synthétique sur les
principales lois de probabilité est présentée dans le tableau 3.
L'extrapolation des résultats issus d'un échantillon constitué d'individus
particuliers à l'ensemble des individus possédant des caractéristiques similaires,
amène à considérer un autre type de distribution appelée distribution
d'échantillonnage.
Tableau 3 : Principales lois de probabilité
Téléchargement