Autour du test du χ2 Table des matières 2 mai 2010 1 Une distribution dérivant du modèle 1.1 Forme de la distribution . . . . . . . 1.2 Paramètres descriptifs . . . . . . . . 1.3 Somme de deux variables qui suivent 1.4 Approximation par une loi normale . 1.5 Utilisation de la table de Pearson . . du . . . . . . . . . . χ2 . . . . . . . . . . . . . . . 1 1 2 2 2 2 2 Test d’ajustement de deux distributions : “test du χ2 ” 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Le test d’ajustement de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 3 Table de Pearson 5 4 gaussien : La distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . une loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de . . . . . . . . . . Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Énoncé du TD8 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Une distribution dérivant du modèle gaussien : La distribution du χ2 de Pearson Elle a été découverte en 1905 par le mathématicien britannique Karl Pearson (1857-1936) qui travailla également sur les problèmes de régression avec le généticien Sir Francis Galton. Cette distribution (qui se prononce khi-deux) est très importante pour tester l’ajustement d’une loi théorique à une distribution expérimentale (test du χ2 ) et pour déterminer la loi de la variance d’un échantillon. Définition 1 Si X1 , X2 , . . . , Xn sont n variables aléatoires indépendantes qui suivent toute la loi normale centrée réduite, alors la quantité X = X12 + X22 + · · · + Xn2 est une variable aléatoire distribuée selon la loi du χ2 à n degrés de liberté. On note X * χ2n . La notion de « degrés de liberté » n’est pas précisée pour l’instant. Pour le moment, il importe simplement de connaı̂tre la définition et de savoir lire la table correspondante. 1.1 Forme de la distribution L’expression de la densité de probabilité étant très compliquée et d’aucun intérêt pour nous, nous ne la donnons pas ici. La distribution du χ2 est continue à valeurs positives et présente un étalement sur le côté supérieur. Elle ne dépend que du nombre de degrés de liberté n. Ci-dessous, densité de χ2n pour n = 1, . . . , 6. y 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 x stats::chisquarePDF(1)(x) stats::chisquarePDF(2)(x) stats::chisquarePDF(3)(x) stats::chisquarePDF(4)(x) stats::chisquarePDF(5)(x) stats::chisquarePDF(6)(x) 1 MA401 : Probabilités 1.2 Paramètres descriptifs E(X) = n , V(X) = 2n. 1.3 Somme de deux variables qui suivent une loi du χ2 Si X1 * χ2n1 et X2 * χ2n2 sont indépendantes, alors X1 + X2 * χ2n1 +n2 . 1.4 Approximation par une loi normale A mesure que n augmente, la loi du χ2 tend vers la loi normale, comme on peut le constater sur le graphique ci-dessous. y 0.20 0.15 0.10 0.05 0.00 0 10 20 30 40 50 x stats::chisquarePDF(4)(x) stats::chisquarePDF(5)(x) stats::chisquarePDF(8)(x) stats::chisquarePDF(12)(x) stats::chisquarePDF(18)(x) stats::chisquarePDF(30)(x) Densité de χ2n pour n = 4, 5, 8, 12, 18, 30. En√pratique, on peut considérer que pour n ≥ 30, on peut remplacer la loi du χ2 à n degrés de liberté par la loi normale N (n, 2n). 1.5 Utilisation de la table de Pearson Pour des raisons de commodité, au lieu de donner la table des fonctions de répartition des variables aléatoires χ2n pour les différentes valeurs de n, on donne, en fonction de n (nombre de degrés de liberté) et d’une probabilité α que l’on peut choisir, la valeur χ2α,n définie par P (χ2 > χ2α,n ) = α. α est un seuil et a en fait une signification particulière dans les problèmes d’estimation et de tests. Il sera défini ultérieurement. 2 2.1 Test d’ajustement de deux distributions : “test du χ2 ” Introduction Un outil statistique qui permet de vérifier la concordance entre une distribution expérimentale et une distribution théorique est le test de Pearson, appelé aussi le test du khi-deux. On cherche donc à déterminer si un modèle théorique est susceptible de représenter adéquatement le comportement probabiliste de la variable observée, comportement fondé sur les fréquences des résultats obtenus sur l’échantillon. Comment procéder ? Répartitions expérimentales On répartit les observations suivant k classes (si le caractère est continu) ou k valeurs (si le caractère est discret). On dispose alors des effectifs des k classes : n1 , n2 , . . . , nk . On a bien sûr la relation k X ni = N, i=1 où N est le nombre total d’observations effectuées. Remarque 2 Dans la pratique, on se placera dans le cas où N ≥ 50 et où chaque ni est supérieur ou égal à 5. Si cette condition n’est pas satisfaite, il y a lieu de regrouper deux ou plusieurs classes adjacentes. Il arrive fréquemment que ce regroupement s’effectue sur les classes aux extrémités de la distribution. k représente donc le nombre de classes après regroupement. L2 Mathématiques et Informatique 2009-2010 2 FST - Université Paul Cézanne MA401 : Probabilités Répartitions théoriques En admettant comme plausible une distribution théorique particulière, on peut construire une répartition idéale des observations de l’échantillon de taille N en ayant recours aux probabilités tabulées (ou calculées) du modèle théorique : p1 , p2 , . . . , pk . On obtient alors les effectifs théoriques nt,i en écrivant nt,i = N pi . On dispose automatiquement de la relation k X nt,i = N . i=1 Définition de l’écart entre les deux distributions Pour évaluer l’écart entre les effectifs observés ni et les effectifs théoriques nt,i , on utilise la somme des écarts normalisés entre les deux distributions, à savoir χ2 = (n2 − nt,2 )2 (nk − nt,k )2 (n1 − nt,1 )2 + + ··· + . nt,1 nt,2 nt,k Plus le nombre χ2 ainsi calculé est grand, plus la distribution étudiée différer de la distribution théorique. Quelques considérations théoriques à propos de cet écart Le nombre d’observations ni parmi l’échantillon de taille N susceptible d’appartenir à la classe i est la réalisation d’une variable binomiale Ni de paramètres N et pi (chacune des N observations appartient ou n’appartient pas à la classe i avec une probabilité pi ). Si N est suffisamment grand (on se place dans le cas d’échantillons de taille 50 minimum) et pi pas trop petit (on a effectué des regroupementspde classes pour qu’il en soit ainsi), on peut approcher la loi binomiale par la loi normale, pi suit la loi c’est-à-dire B(N, pi ) par N (N pi , N pi (1 − pi )). Pour simplifier, on approxime N pi (1 − pi ) par N pi . Donc NiN−N pi N (0, 1). Lorsqu’on élève au carré toutes ces quantités et qu’on en fait la somme, on obtient une somme de k lois normales centrées réduites (presque) indépendantes. Mais quel est le nombre de degrés de liberté de cette variable du khi-deux ? Il y a k carrés, donc à priori k degrés de liberté. Mais on perd toujours un degré de liberté car on a fixé l’effectif total de l’échantillon, k X Ni = N. i=1 On peut perdre d’autres degrés de liberté si certains paramètres de la loi théorique doivent être estimés à partir de l’échantillon. 1. Si la distribution théorique est entièrement spécifiée, c’est-à-dire si on cherche à déterminer si la distribution observée suit une loi dont les paramètres sont connus avant même de choisir l’échantillon, on a k − 1 degrés de liberté (k carrés indépendants moins une relation entre les variables). 2. S’il faut d’abord estimer r paramètres de la loi à partir des observations de l’échantillon (par exemple on cherche si la distribution est normale mais on ne connaı̂t d’avance ni sa moyenne ni son écart-type), il n’y a plus que k − 1 − r degrés de liberté. Dans le cas général, on dira que la loi du khi-deux suivie par l’écart entre les deux distributions a k − 1 − r degrés de liberté lorsqu’on a estimé r paramètres de la loi théorique à partir des observations de l’échantillon (avec la possibilité pour r de valoir 0). 2.2 Le test d’ajustement de Pearson Il nous faut maintenant décider, à l’aide de cet indicateur qu’est le χ2 , si les écarts entre les effectifs théoriques et ceux qui résultent des observations sont significatifs d’une différence de distribution ou si ils sont dus aux fluctuations d’échantillonnage. Nous procéderons comme d’habitude en quatre étapes. 1ère étape : Formulation des hypothèses. On va donc tester l’hypothèse H0 (appelée hypothèse nulle) contre l’hypothèse H1 (hypothèse alternative) : ( H0 Les observations suivent la distribution théorique spécifiée, H1 Les observations ne suivent pas la distribution théorique spécifiée. 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. On utilise la variable aléatoire χ2 = (N1 − nt,1 )2 (N2 − nt,2 )2 (Nk − nt,k )2 + + ··· + . nt,1 nt,2 nt,k 3ème étape : Détermination des valeurs critiques de χ2 délimitant les zones d’acceptation et de rejet. On impose à la zone d’acceptation de H0 concernant la valeur du χ2 d’être un intervalle dont 0 est la borne inférieure (car un χ2 est toujours positif). L2 Mathématiques et Informatique 2009-2010 3 FST - Université Paul Cézanne MA401 : Probabilités P(# 2 > # 2!,")= ! 1!! # 2!," Il nous faut donc déterminer dans la table la valeur maximale χ2α,ν de l’écart entre les deux distributions imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (χ2 > χ2α,ν ) = α. χ2α,ν représente donc la valeur critique pour un test sur la concordance entre deux distributions et le test sera toujours unilatéral à droite. 4ème étape : Calcul de la valeur de χ2 prise dans l’échantillon et conclusion du test. On calcule la valeur χ20 prise par χ2 dans l’échantillon. – Si la valeur χ20 se trouve dans la zone de rejet, on dira que l’écart observé entre les deux distributions est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . – Si la valeur χ20 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . L2 Mathématiques et Informatique 2009-2010 4 FST - Université Paul Cézanne MA401 : Probabilités 3 Table de Pearson LOI DE PEARSON P(# 2 > # 2!,")= ! 1!! # 2!," La table donne ν\α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.99 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 0.98 0.001 0.040 0.185 0.429 0.752 1.134 1.564 2.032 2.532 3.059 3.609 4.178 4.765 5.368 5.985 6.614 7.255 7.906 8.567 9.237 9.915 10.600 11.293 11.992 12.697 13.409 14.125 14.847 15.574 16.306 0.95 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 0.9 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 L2 Mathématiques et Informatique 2009-2010 χ2α,ν 0.8 0.064 0.446 1.005 1.649 2.343 3.070 3.822 4.594 5.380 6.179 6.989 7.807 8.634 9.467 10.307 11.152 12.002 12.857 13.716 14.578 15.445 16.314 17.187 18.062 18.940 19.820 20.703 21.588 22.475 23.364 tel que P (|χ2α,ν | > tα ) = α. 0.2 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250 5 0.1 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 0.05 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 0.02 5.412 7.824 9.837 11.668 13.388 15.033 16.622 18.168 19.679 21.161 22.618 24.054 25.472 26.873 28.259 29.633 30.995 32.346 33.687 35.020 36.343 37.659 38.968 40.270 41.566 42.856 44.140 45.419 46.693 47.962 0.01 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 FST - Université Paul Cézanne MA401 : Probabilités 4 Énoncé du TD8 Exercice 1 : En 2000, la répartition des PME (en pourcentage) des PME d’une région suivant six secteurs industriels était la suivante : Secteur Pourcentage A 33 B 22 C 17 D 14 E 10 F 4 On considère en 2009, un échantillon, de taille 200, de PME de la même région. On obtient la répartition suivante : Secteur Pourcentage A 70 B 52 C 30 D 24 E 14 F 10 Peut-on considérer que, dans cette région, l’environnement industriel n’a pas changé depuis 2000 (au risque 0,05) ? Exercice 2 : On a constaté sur les téléviseurs de type A que – 30 % des pannes provenaient des tubes cathodiques, – 55 % des pannes provenaient des composants électroniques, – 15 % des pannes étaient dues à des problèmes divers. Sur un échantillon de 200 téléviseurs de type B en panne, on a constaté 42 pannes dues au tube cathodique, 132 pannes dues aux composantts éléctroniques et 26 pannes diverses. Les pannes des deux types de téléviseurs diffèrent-elles significativement (au risque 0,05) ? Exercice 3 : Dans une PME, durant les 60 derniers jours ouvrables, on a relevé chaque jour le nombre de salariés en arrêt de travail, et consigné les résultats dans le tableau suivant : xi ni 0 9 1 9 2 8 3 11 4 8 5 6 6 5 7 3 8 0 9 , 1 où ni est le nombre de jours où l’on a observé xi arrêts de travail. Tester l’hypothèse nulle H0 : ”le nombre d’arrêts de travail par jour suit une loi de Poisson” contre l’hypothèse alternative H1 : ”le nombre d’arrêts de travail par jour ne suit pas une loi de Poisson”, au risque 0,05. LOI DE POISSON P (2 ≤ λ ≤ 6) La table donne, pour k entier et λ réel, pk = P (X = k) et pk = P (X ≤ k). k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 λ=2 pk P 0.1353 0.2707 0.2707 0.1804 0.0902 0.0361 0.0120 0.0034 0.0009 0.0002 0 0 0 0 0 0 0 0 0 0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 0.9989 0.9998 1 1 1 1 0 0 0 0 0 0 pk λ=3 pk P 0.0498 0.1494 0.2240 0.2240 0.1680 0.1008 0.0504 0.0216 0.0081 0.0027 0.0008 0.0002 0.0001 0 0 0 0 0 0 0.0498 0.1991 0.4232 0.6472 0.8153 0.9161 0.9665 0.9881 0.9962 0.9989 0.9997 0.9999 1 1 1 0 0 0 0 L2 Mathématiques et Informatique 2009-2010 pk λ=4 pk P 0.0183 0.0733 0.1465 0.1954 0.1954 0.1563 0.1042 0.0595 0.0298 0.0132 0.0053 0.0019 0.0006 0.0002 0.0001 0 0 0 0 0.0183 0.0916 0.2381 0.4335 0.6288 0.7851 0.8893 0.9489 0.9786 0.9919 0.9972 0.9991 0.9997 0.9999 1 1 1 1 0 6 pk λ=5 pk P 0.0067 0.0337 0.0842 0.1404 0.1755 0.1755 0.1462 0.1044 0.0653 0.0363 0.0181 0.0082 0.0034 0.0013 0.0005 0.0002 0 0 0 0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682 0.9863 0.9945 0.9980 0.9993 0.9998 0.9999 1 1 1 pk λ=6 pk P 0.0025 0.0149 0.0446 0.0892 0.1339 0.1606 0.1606 0.1377 0.1033 0.0688 0.0413 0.0225 0.0113 0.0052 0.0022 0.0009 0.0003 0.0001 0 0.0025 0.0174 0.0620 0.1512 0.2851 0.4457 0.6063 0.7440 0.8472 0.9161 0.9574 0.9799 0.9912 0.9964 0.9986 0.9995 0.9998 0.9999 1 pk FST - Université Paul Cézanne MA401 : Probabilités Correction exercice 1 On teste l’hypothèse nulle H0 : ”la répartition des PME n’a pas changé” contre l’hypothèse alternative H1 : ”la répartition des PME a changé” au risque α = 0.05. Secteur A B C D E F Σ On a χ2 = pi 0.33 0.22 0.17 0.14 0.10 0.04 1.00 ni 70 52 30 24 14 10 200 nt,i = N pi 66 44 34 28 20 8 200 6 X (ni − nt,i )2 nt,i i=1 (ni − nt,i )2 16 64 16 16 36 4 (ni −nt,i )2 nt,i 0.242 1.454 0.471 0.571 1.80 0.50 5.03 ≈ 5.03. Le nombre de degrés de liberté est ν = k − 1 − r. Ici, il y a k = 6 classes et r = 0 paramètre à estimer, donc ν = 5. À l’aide de la table de Pearson, on obtient χ20.05;5 = 11.070. On ne rejette donc pas l’hypothèse H0 au risque 0.05. Correction exercice 2 On teste l’hypothèse nulle H0 : ”la répartition des pannes des téléviseurs de type A est la même que celle des téléviseurs TV de type B” contre l’hypothèse alternative H1 : ”la répartition des pannes des téléviseurs de type A est différente de celle des téléviseurs TV de type B” au risque α = 0.05. Tubes Composants Tubes Σ On a χ2 = ni 42 132 26 200 pi 0.30 0.55 0.15 1.00 3 X (ni − nt,i )2 nt,i i=1 nt,i = N pi 60 110 30 200 (ni − nt,i )2 324 484 16 (ni −nt,i )2 nt,i 5.4 4.4 0.53 10.33 ≈ 10.33. Le nombre de degrés de liberté est ν = k − 1 − r. Ici, il y a k = 3 classes et r = 0 paramètre à estimer, donc ν = 2. On travaille au risque α = 0.05. À l’aide de la table de Pearson, on obtient χ20.05;2 = 5.991. On rejette donc l’hypothèse H0 au risque 0.05. Correction exercice 3 Si le nombre d’arrêts de travail par jour suit une loi de Poisson, la moyenne arithmétique est une estimation ponctuelle du paramètre de la loi. Il faut calculer le nombre moyen d’arrêts de travail par jour. La moyenne arithmétique est égale à P9 180 i=0 ni xi x= = = 3. N 60 Les pi associés à la loi de Poisson P(3) de paramètre λ = 3 sont consignés dans le tableau suivant : xi ni xi ni 0 9 0 1 9 9 2 8 16 3 11 33 4 8 32 5 6 30 6 5 30 7 3 21 8 0 0 9 1 9 Remarques : pi 0.0498 0.1494 0.2240 0.2240 0.1680 0.1008 0.0504 0.0216 0.0081 0.0039 nt,i = N pi 2.988 8.964 13.44 13.44 10.08 6.048 3.024 1.296 0.486 0.234 1. On assimile P la dernière P modalitré ”9” à la modalité ”9 et plus” donc la valeur pi calculée est P (X ≥ 9). Cela permet d’avoir pi = 1 et N pi = 60. 2. Certains nt,i étant inférieurs à 5, on regroupe ces nt,i avec les classes voisines de façon à obtenir des valeurs nt,i supérieures à 5. On regroupe également les ni correspondants. Le tableau ci-dessous ne contient plus que 6 lignes. L2 Mathématiques et Informatique 2009-2010 7 FST - Université Paul Cézanne MA401 : Probabilités xi 0 ≤ x1 ≤ 1 2 3 4 5 6 ≤ x6 ≤ 9 On a χ2 = ni 18 8 11 8 6 9 nt,i = N pi 11.952 13.44 13.44 10.08 6.06 5.04 6 X (ni − nt,i )2 i=1 nt,i (ni − nt,i )2 36.578 29.594 5.954 4.326 0.004 15.682 (ni −nt,i )2 nt,i 3.060 2.202 0.443 0.429 20.001 3.112 ≈ 9.247. Le nombre de degrés de liberté est ν = k − 1 − r. Ici, il y a k = 6 classes et r = 1 paramètre à estimer, donc ν = 4. On travaille au risque α = 0.05. À l’aide de la table de Pearson, on obtient χ20.05;4 = 9.488. On ne rejette donc pas l’hypothèse H0 au risque 0.05. L2 Mathématiques et Informatique 2009-2010 8 FST - Université Paul Cézanne