Chapitre Ajustement et comparaison de lois 4.1 Ajustement d’une distribution statistique — principe et choix du test Dans cette section on se pose le problème de tester si une distribution statistique observée sur un échantillon est conforme ou non à un modèle théorique donné. Par exemple il s’agit de vérifier si une distribution suit une loi normale, ou une loi de Poisson, ou une loi uniforme, ou un autre modèle prévu par la théorie. Les tests d’ajustement à une loi théorique sont très variés et l’utilisation de l’un ou l’autre demande beaucoup d’attention et de vérification des conditions d’applications. Dans un premier temps on va étudier un exemple d’ajustement à une loi normale, condition qui est le plus souvent exigée dans les utilisations des tests paramétriques de comparaison de moyennes dans des applications en psychologie. Considérons un exemple concret. Le tableau suivant représente la distribution statistique (sur un échantillon de 180 enfants de 3 ans) de la variable statistique X qui associe, à chaque enfant, le nombre de mots constituant son langage de base. On se demande si le nombre de mots constituant le langage de base d’un enfant est distribué comme une loi normale avec une moyenne 150 mots et un écart type de 25 mots. Dans les tests effectués jusqu’à présent, les hypothèses portaient sur des paramètres statistiques tels des moyennes ou des proportions. Il faut noter que d’une manière générale, l’hypothèse nulle d’un test d’ajustement est une hypothèse de non différence, que ce soit avec un paramètre théorique ou un modèle probabiliste. En fait c’est toujours une hypothèse qui fournit une statistique bien déterminée. Dans le cas d’un test d’ajustement à une loi théorique, les hypothèses sont alors H0 : La distribution de X est conforme au modèle théorique proposé, H1 : la distribution de X n’est pas conforme au modèle théorique proposé. Dans le cas de l’exemple étudié on a H0 : le nombre de mots utilisés par un enfant de trois ans varie suivant un modèle gaussien de moyenne 150 et d’écart type 25 H1 : non H0 ou en résumé : H0 : X ,→ N (150, 25) H : Non H0 . 1 Remarque 4.1.1 La variable « nombre de mots » est quantitative discrète. Comme elle peut prendre un grand nombre de valeurs, on la regarde comme une variable continue et on range les données par classes. Classes : Effectifs : 70 − 90 3 90 − 110 8 110 − 130 19 130 − 150 58 150 − 170 55 170 − 190 22 190 − 210 15 Σ 180 On veut comparer cette distribution à la distribution normale N (150, 25). On peut avoir (entre autres) deux idées, reliées à deux représentations graphiques des données. On trace d’abord l’histogramme des données, et le graphe des fréquences cumulées. 23 4 4. Ajustement et comparaison de lois 60 1 0.8 40 0.6 0.4 20 0.2 70 190 – 210 170 – 190 150 – 170 130 – 150 110 – 130 90 – 110 0 70 – 90 0 90 110 130 150 170 190 210 Ensuite, par une méthode détaillée plus loin, on construit les objets « théoriques » correspondants, ceux que l’on obtiendrait (en moyenne) si la variable suivait exactement la loi N (150, 25). On les représente ici sur le même graphique : 60 1 0.8 40 0.6 0.4 20 0.2 190 – 210 170 – 190 150 – 170 130 – 150 110 – 130 90 – 110 0 70 – 90 0 70 90 110 130 150 170 190 210 On voit alors qu’on a deux possibilités pour réaliser le test, soit comparer les deux histogrammes observé et théorique, soit comparer les deux courbes cumulatives. — avec la première idée on effectue un test d’ajustement du χ2 , — dans le deuxième cas on effectue un test d’ajustement de Kolmogorov-Smirnov. Remarque 4.1.2 Cumuler les fréquences cumulées n’a de sens que si la variable est quantitative (ou au moins ordonnée. . .) : la deuxième idée ne peut donc pas fonctionner pour des variables qualitatives. Techniquement, on ne peut pas trouver une statistique intéressante si on ne suppose pas la variable quantitative continue. On n’appliquera donc le deuxième test que pour des variables de ce type. 4.2 Test du χ2 Si le modèle théorique admet un nombre fini de modalités, ce qui est la cas quand on range les données d’une variable continue en classes, on doit calculer la probabilité de chaque modalité en se plaçant sous l’hypothèse H0 . Ces probalités seront appelées les fréquences théoriques. Pour une modalité Mi de la variable, on doit calculer sa probabilité. Dans notre exemple ceci revient à calculer la probabilité de chaque classe en supposant que la variable est normale de moyenne 150 et d’écart type 25. 24 4.2. Test du χ2 Remarque 4.2.1 Pour les classes limites (la première et la dernière), on doit tenir compte des effets de bord. Dans l’exemple étudié on doit calculer P[X < 90]; P[X ≥ 190] et On a sous H0 la variable X ,→ N (150; 25) donc Z = X−150 25 P[X < 90] = P[Z ≤ −2, 4] = 0, 0082; ,→ N (0, 1). P[90 < X < 110] = P[−2, 4 < Z < −1, 6] = 0, 0466 P[110 < X < 130] = P[−1, 6 < Z < −0, 8] = 0, 1571; P[130 < X < 150] = P[−0, 8 < Z < 0] = 0, 2881 P[150 < X < 170] = P[0 < Z < 0, 8] = 0, 2881; P[170 < X < 190] = P[0, 8 < Z < 1, 6] = 0, 2881 P[X > 190] = P[Z > 1, 6] = 0, 0548. On obtient alors les résultats résumés sur le tableau suivant : classes 70 − 90 90 − 110 110 − 130 130 − 150 150 − 170 effectifs ni 3 8 19 58 55 th fi 0.0082 0, 0466 0, 1571 0, 2881 0, 2881 170 − 190 22 0, 1571 190 − 210 15 0, 0548 Σ 180 1 Si on suppose H0 vraie, alors la probabilité pour qu’un individu choisi au hasard soit dans la modalité Mi est égale à la fréquence théorique fith . Pour un échantillon de taille n choisi au hasard, on désigne par Ni le nombre d’individus dont la valeur X est dans la modalité Mi . Sous l’hypothèse H0 cette variable suit une loi binomiale de paramètres n et fith . Ni ,→ B n, fith L’espérance de cette variable est E(Ni ) = nfith = nth i nth i et on appellera l’effectif théorique (ou attendu) si le modèle théorique est vrai. th La loi binomiale suivie par Ni peut être approchée par une loi normale si nfith = nth i > 5 et n(1−fi ) > 5 et n > 30. Si ces conditions ne sont pas satisfaites et si n > 30 on regroupe les modalités adjacentes (pour une variable quantitative) autant de fois que nécessaire, jusqu’à ce qu’elles soient remplies. Remarque 4.2.2 (Degrés de liberté) Si l’on note r le nombre de modalités finales après regroupements éventuels, on a alors N1 + N2 + · · · + Nr = n Il y a alors une relation entre les r variables Ni . Dans l’exemple étudié, les fréquences théoriques ont été calculées en utilisant les paramètres théoriques µ = 150 et σ = 25 qui ne dépendent pas de l’échantillon observés. Si un ou deux de ces paramètres ne sont pas connus, on doit alors les remplacer par les estimations ponctuelles données par l’échantillon. On désigne alors par ` le nombre de paramètres estimés par l’échantillon. Ceci impose ` contraintes supplémentaires. Finalement les r variables Ni sont liées par ` + 1 contraintes, le nombre de degrés de liberté est donc r − ` − 1. On démontre alors que la variable Y = X (Ni − nth )2 i nth i suit une loi du χ2 à r − ` − 1 ddl. classes 70 − 90 ni 3 fith 0.0082 nth i 1,48 2 (ni −nth i ) nth i 90 − 110 8 11 0, 0466 8,39 9.86 0, 13 110 − 130 130 − 150 150 − 170 170 − 190 190 − 210 Σ 19 58 55 22 15 180 0, 1571 0, 2881 0, 2881 0, 1571 0, 0548 1 28, 27 51, 87 51, 87 28, 27 9, 86 180 3, 04 0, 73 0, 19 1, 39 2, 67 8, 15 25 4. Ajustement et comparaison de lois Dans l’exemple on a r = 6 et ` = 0 ce qui donne 5 ddl. Pour un risque d’erreur de 0, 05 la valeur critique donnée par la table du χ2 est 11, 07. Comme la valeur expérimentale est de 8,15, on ne peut pas rejeter la normalité de la variable. 4.3 Test de Kolmogorov Smirnov On reprend maintenant la deuxième idée (comparer des fréquences cumulées). On calcule des fréquences cumulées théoriques en. . .cumulant les fréquences théoriques (ou par un calcul direct sur la loi théorique). Statistique du test La statistique du test est la plus grande différence entre valeurs théoriques et expérimentales : D = max F (t) − F th (t) . Région de rejet Pour les petits échantillons les valeurs critiques sont données directement par la table de Kolmogorov Smirnov. Pour les grands échantillons, elles sont données par la formule : Cα dα = √ n où la valeur de Cα dépend du risque fixé et est donné par une table. Pour α = 0.05, on a Cα = 1.3581. Dans le cas de notre exemple, on obtient 1.3581 d0.05 = √ = 0, 1012; 180 K0.05 (D) = [D ≥ 0.1012] Décision On calcule les fréquences cumulées théoriques et expérimentales. classes 70 − 90 90 − 110 110 − 130 130 − 150 150 − 170 170 − 190 190 − 210 Σ effectifs ni 3 8 19 58 55 22 15 180 fith Fith Fiexp |Fith − Fiexp | 0, 0082 0, 0466 0, 1571 0, 2881 0, 2881 0, 1571 0, 0548 1 0, 0082 0, 0548 0, 2119 0, 5000 0, 7881 0, 9452 1, 0000 0, 0167 0, 0611 0, 1667 0, 4889 0, 7944 0, 9167 1, 0000 0, 0085 0, 0063 0, 0452 0, 0111 0, 0063 0, 0285 0, 0000 On a Dexp = 0.0452 < 0.1012, donc on accepte H0 . La distribution ne diffère pas significativement d’une Gaussienne. 4.4 Ajustement d’une variable catégorielle Pour une variable catégorielle, le test de Kolmogorov-Smirnov n’est pas valable puisque les modalités ne sont pas ordonnées et la notion de fonctions de répartition n’a pas de sens. On peut toutefois l’adapter dans des cas où les modalités de la variable sont hiérarchisés et peuvent être ordonnées. Dans le cas où la variable a deux modalités il marche parfaitement. On peut vérifier que dans le cas de deux modalités, la variable D = max|F th − F exp | ne dépend pas de l’ordre dans lequel sont présentées les deux modalités, ce qui n’est pas le cas en général. Dans le cas des grands échantillons, on peut alors utiliser le test asymptotique du χ2 en procédant de la même manière que dans le ces des variables quantitatives. Mais lorsque plusieurs modalités ont des effectifs théoriques inférieurs à 5, on peut regrouper certaines modalités qu’on juge voisines selon la nature du problème posé. On ne peut pas par exemple regrouper Paysans et Cadres supérieurs si les modalités sont des classes socioprofessionnelles. Dans ces situations, il faut se garder de faire le test du χ2 , mais plutôt effectuer des procédures exactes basées sur la combinatoire, telles que la loi multinomiale pour des ajustements ou hypergéométrique pour des comparaisons. On parle alors dans ces cas de tests exacts. Ces procédures sont relativement complexes et sortent du cadre de ce cours. Donnons un exemple. On a choisi au hasard un corpus de 400 mots dans un lexique de la langue française et réparti les mots selon le nombre de syllabes. On a obtenu la répartition suivante 26 4.5. nombre de syllabes nombre de mots 1 47 2 128 3 153 4 67 Comparaison de deux distributions ≥5 5 400 Des études linguistiques prétendent qu’en général on a la répartition théorique suivante : nombre de syllabes fréquences supposées 1 0,1 2 0,33 3 0,4 4 0,15 ≥5 0,02 On va alors effectuer un test du χ2 pour vérifier cette hypothèse. On présente dans le tableau suivant les calculs relatifs au test. nombre de syllabes nombre de mots fréquences supposées effectifs théoriques χ2 1 47 0,1 40 1,225 2 128 0,33 132 0,121 3 153 0,4 160 0,306 4 67 0,15 60 0,817 ≥5 5 0,02 8 1,125 400 3,594 Comme le nombre de modalités finales est r = 5, donc 4 ddl. Avec un risque d’erreur de 5% la valer critique est de Y0,05 = 9, 488. Comme la valeur expérimentale est de Y exp = 3, 594, on peut conclure qu’il n’y a pas de différence significative avec la répartitions supposée. 4.5 Comparaison de deux distributions Dans le cas des variables quantitatives, on peut utiliser deux tests pour comparer deux distributions : le test du χ2 et le test de Kolmogorov-Smirnov à deux échantillons. Le principe est soit de comparer les deux histogrammes empiriques (test du χ2 ), soit de comparer les deux fonctions de répartition (test de K.-S.). Dans le cas des variables catégorielles seul le test du χ2 est valable. a. Test du χ2 . Reprenons l’exemple du nombre de mots utilisés par des enfants de trois ans. Supposons que l’on cherche à déterminer si la maîtrise du vocabulaire dépend du sexe de l’enfant. Pour 95 filles et 85 garçons, on obtient la répartition suivante : classes Filles : nF i Garçons : nG i 70 − 90 2 1 90 − 110 3 5 110 − 130 6 13 130 − 150 37 21 150 − 170 27 28 170 − 190 14 8 190 − 210 6 9 Σ 95 85 Hypothèses. H0 : La distribution du nombre de mots utilisés par les filles est identique à celle des garçons, H1 : Non H0 Autrement dit l’hypothèse H0 signifie que la distribution du nombre de mots utilisés ne dépend pas du sexe de l’enfant. Modèle statistique. Sous l’hypothèse H0 on doit calculer une estimation de la probabilité de chaque modalité en divisant la somme des effectifs de chaque modalité et en divisant par l’effectif total des deux échantillons. nF + nG i pi = iF n + nG Ensuite on calcule pour chaque échantillon les effectifs théorique en utilisant nGth = p × nG ; i th nF = p × nF i On regroupe les classes si des effectifs théoriques sont inférieurs à 5. Remarque 4.5.1 Le nombre de modalités finales doit être le même pour les deux échantillons. Si on procède à un regroupement en se basant sur l’effectif théorique (≤ 5) de l’un des deux échantillons on effectue aussi le même regroupement pour l’autre, même si l’effectif est supérieur à 5. 27 4. Ajustement et comparaison de lois Si on désigne par r le nombre de modalités finales alors la statistique du test est Y = X (N G − nGth )2 i i nGth i + X (N F − nF th )2 i i th nF i qui est distribuée selon une loi du χ2 à r − 1 ddl. Dans l’exemple on a r = 6 donc 5 ddl. Calculs expérimentaux. classes : 70 − 90 90 − 110 110 − 130 130 − 150 150 − 170 170 − 190 190 − 210 Σ filles : nF i 2 3 5 6 37 27 14 6 95 Garçons : nG i 1 5 6 13 21 28 8 9 85 pi 0, 017 0, 044 0, 106 0, 322 0, 306 0, 122 0, 083 nF,th i 1,583 4,222 5, 605 10, 028 30, 611 29, 028 11, 611 7, 917 nG,th i 1,417 3,778 5, 195 8, 972 27, 389 25, 972 10, 389 7, 083 χ2F 0, 007 1, 618 1, 333 0, 142 0, 491 0, 464 χ2G 0, 008 1, 808 1, 490 0, 158 0, 549 0, 519 Région de rejet et décision La région de rejet de H0 pour un risque d’erreur de 0, 05 est K(Y ) = [Y ≥ 11, 07.] La valeur expérimentale est Y exp = 4, 055 + 4, 532 = 8, 587 6∈ K(Y ). Les deux distributions ne diffèrent donc pas significativement. b. Test de Kolmogorov-Smirnov On calcule les fréquences cumulées expérimentales. filles :nF i Garçons :nG i FFexp FGexp D 2 1 0, 021 0, 012 0, 009 3 5 0, 053 0, 071 0, 018 6 13 0, 116 0, 224 0, 108 37 21 0, 505 0, 471 0, 035 27 28 0, 789 0, 800 0, 011 14 8 0, 937 0, 894 0, 043 6 9 1 1 0 La statistique du test est la plus grande différence entre les deux fonctions de répartitions observées. D = max F F exp − F Gexp Pour des échantillons de petite tailles on cherche la valeur critique sur la table directement. Pour des grands échantillons la valeur critique est donnée par r n1 + n2 dα = Cα n1 n2 Pour α = 0, 05 et pour des échantillons de tailles 95 et 85, on obtient r 95 + 85 = 0, 2028 dα = 1, 3581 95 × 85 On a Dexp = 0, 108 < 0, 2028. Conclusion : il n’y a pas de différence significative entre les deux distributions. 28