données recueillies ne correspondent pas’. Notons r le risque. On répartit les données en différentes
classes, en comptabilisant le nombre de cas où les données sont dans chaque classe. Une réalisation
d’un modèle donné donne des effectifs de classe qui différent légèrement des valeurs théoriques (ne
serait – ce que parce que les effectifs de classes sont des entiers). Le calcul du nombre :
théoriqueeffectif
théoriqueeffectifréeleffectif
2
2
nous donne une idée de la ‘distance’ entre la réalisation et le modèle. Si les données sont très proches
du modèle, le 2 sera faible, et si elles sont notablement différentes, le 2 sera fort. On s’attend donc à
avoir 2 faible lorsque H0 est vraie. On prend alors comme zone d’acceptation de l’hypothèse un
intervalle [ 0 , a ] dans lequel 2 sera avec la probabilité 1 – r.
Sous l’hypothèse H0 , la loi de 2 est complexe, mais s’approxime très bien lorsque les classes n’ont
pas des effectifs trop faibles (on considère que 5 est un minimum). La loi utilisée est la loi du 2 à
( n – p ) degrés de liberté où n est le nombre de classes, et p le nombre d’effectifs théoriques que l’on
peut calculer en connaissant les autres. On donne généralement la loi du 2 par des tables qui donnent,
pour un risque r et un nombre n de degrés de libertés donnés la valeur a telle que Pr{ 2n > a } = r. On
a ainsi la limite de l’intervalle d’acceptation, et on peut appliquer le test :
2calculé < a : Le test réussit ; Le modèle peut être utilisé.
2calculé > a : Le test échoue ; Avec le risque r de se tromper, on peut affirmer que le modèle ne
convient pas
Attention :
L’échec du test ne permet pas d’affirmer avec certitude que le modèle ne s’applique pas (il
existe des réalisations extrêmes d’une loi donnée). Le fait qu’il réussisse ne prouve pas que le
modèle est sûrement le bon (il a pu réussir alors que ce n’était pas cette loi qui convenait).
Mais en général on peut s’appuyer sur ce test pour confirmer une intuition, ou, comme dans
l’exemple ci – dessus, rejeter un modèle à priori.
Si les classes sont trop petites (en particulier pour des classes vides), on regroupe plusieurs
classes, de façon a obtenir des effectifs supérieurs à 5. Dans l’exemple ci – dessus, il convient
de regrouper les classes 6 et plus de 6, et le 2théorique devient (pour 6 ddl) 12,59 alors que le
2calculé vaut 22,21. La conclusion est la même, mais la pratique est plus saine.
De nombreux logiciels calculent, pour des tables à deux dimensions, des seuils de
signification (par exemple dans les tris croisés des logiciels de statistiques). Le test est celui
de l’indépendance des données, et on souhaite montrer qu’elle est fausse, donc que le test
échoue. Ils ne donnent pas de conclusion de test (faute d’avoir le seuil de risque), mais
donnent une probabilité annoncée comme un seuil de confiance. En fait, il s’agit du seuil de
confiance ( 1 – r ) pour lequel la valeur test a est juste égale au résultat 2calculé . La méthode
est donc à interpréter avec précaution, mais il est facile de voir qu’un seuil de confiance très
proche de 100% donne une bonne raison de penser que les variables sont dépendantes.
II. Théorie de l’échantillonnage :
1) L’idée :
Dans de nombreux cas il est impossible d’avoir un résultat statistique exact ; soit la
population n’est pas accessible (répartition des poissons dans le lac Léman), soit elle évolue dans le
temps (qualité d’une production industrielle), soit le recensement complet est impossible (étrangers en
situation irrégulière) ou illusoire (personnes sans domicile fixe). On ne testera alors qu’une partie La
théorie de l’échantillonnage montre qu’une analyse d’une partie bien choisie de la population peut
donner de bons résultats.
Une difficulté existe cependant : le choix de l’échantillon. La façon de choisir les individus de
l’échantillon peut influer sur le résultat (faire un sondage sur la santé des français par téléphone donne
un résultat de meilleure santé que dans la réalité car les personnes très malades sont à l’hôpital ; On