Tests statistiques 55
Toute démarche scientifique consiste à proposer des théories, qui sont en-
suite confirmées ou réfutées. Une théorie émet des prédictions sur le résultat
d’expériences ou de mesures futures. Qu’une seule de ces prédictions s’avère
fausse, et c’est toute la théorie qui est réfutée. En revanche, une prédiction
qui s’avère exacte ne fait que conforter la théorie, qui ne pourra jamais être
définitivement prouvée. En statistique les théories sont des modèles probabi-
listes, qui en général ne peuvent pas être réfutés : aucun résultat observé n’est
jamais totalement incompatible avec le modèle. Dans le cas du médicament,
il n’est pas impossible que par le fait du hasard, aucun des individus traités
ne guérisse. C’est seulement très peu vraisemblable. Comme il serait suspect,
mais pas exclu, que tous les individus guérissent sans exception. L’objet des
tests statistiques est de distinguer ce qui est plausible de ce qui est trop peu
vraisemblable.
Les prédictions émises par une théorie en sont des conséquences particulières.
Considérons par exemple la situation où on souhaite tester un générateur
pseudo-aléatoire au vu des valeurs qu’il retourne. En pratique, un générateur
pseudo-aléatoire (fonction Random) calcule les termes successifs d’une suite
itérative déterministe. Ces valeurs doivent se comporter comme des “réels au
hasard entre 0 et 1”. Cette phrase cache en fait le modèle probabiliste suivant :
les valeurs retournées par Random sont des réalisations de variables aléatoires
indépendantes et de même loi, uniforme sur [0 ,1]. Ce modèle probabiliste a
une infinité de conséquences testables. Par exemple si le modèle est correct,
sur 100 appels, le nombre de ceux compris entre 0.4et 0.9suit la loi binomiale
B(100,0.5). Il n’est pas totalement exclu de n’en observer aucun, mais c’est
très improbable (probabilité 1/2100). Si sur 100 appels de la fonction Random,
aucun n’était compris entre 0.4et 0.9, on aurait donc de bonnes raisons de
mettre en doute le modèle. Mais si le nombre d’appels de Random entre 0.4
et 0.9est de 46, tout ce qu’on pourra dire c’est que ce résultat est plausible.
Cela peut renforcer notre confiance dans le modèle, mais cela ne présage pas
du résultat d’autres tests : aucun test statistique ne pourra jamais démontrer
que le modèle testé est le bon, ni qu’il est le seul possible.
On peut envisager d’autres moyens de tester un générateur pseudo-aléa-
toire. Par exemple, sur 100 couples d’appels consécutifs, le nombre de couples
pour lesquels le premier élément est inférieur au second suit encore la loi
binomiale B(100,0.5). Ou encore, le nombre d’appels successifs entre deux
passages dans l’intervalle [0.4,0.9] suit la loi géométrique G(0.5) : n’importe
quelle valeur positive est possible mais une valeur supérieure à 100 est très
peu vraisemblable. L’opposé du logarithme du produit de 100 valeurs suit
la loi gamma G(100,1). Toute valeur strictement positive est possible mais
une valeur inférieure à 10 est très peu vraisemblable. On pourrait donner
beaucoup d’autres exemples : la validation statistique des générateurs pseudo-
aléatoires a fait l’objet de très nombreux travaux.
En résumé, la situation est la suivante. Les données observées sont modélisées