Autour du test du Chi2

Téléchargement

Autour du test du χ2

2 mai 2010

Table des mati`eres

1 Une distribution d´erivant du mod`ele gaussien : La distribution du χ2de Pearson 1

1.1 Formedeladistribution................................................. 1

1.2 Param`etresdescriptifs .................................................. 2

1.3 Somme de deux variables qui suivent une loi du χ2.................................. 2

1.4 Approximation par une loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.5 Utilisation de la table de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Test d’ajustement de deux distributions : “test du χ2” 2

2.1 Introduction........................................................ 2

2.2 Le test d’ajustement de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 Table de Pearson 5

4´

Enonc´e du TD8 6

1 Une distribution d´erivant du mod`ele gaussien : La distribution du χ2de

Pearson

Elle a ´et´e d´ecouverte en 1905 par le math´ematicien britannique Karl Pearson (1857-1936) qui travailla ´egalement sur les

probl`emes de r´egression avec le g´en´eticien Sir Francis Galton. Cette distribution (qui se prononce khi-deux) est tr`es importante

pour tester l’ajustement d’une loi th´eorique `a une distribution exp´erimentale (test du χ2) et pour d´eterminer la loi de la variance

d’un ´echantillon.

D´eﬁnition 1 Si X1, X2, . . . , Xnsont nvariables al´eatoires ind´ependantes qui suivent toute la loi normale centr´ee r´eduite,

alors la quantit´e X=X2

1+X2

2+··· +X2

nest une variable al´eatoire distribu´ee selon la loi du χ2`a ndegr´es de libert´e. On

note X * χ2

La notion de «degr´es de libert´e »n’est pas pr´ecis´ee pour l’instant. Pour le moment, il importe simplement de connaˆıtre

la d´eﬁnition et de savoir lire la table correspondante.

1.1 Forme de la distribution

L’expression de la densit´e de probabilit´e ´etant tr`es compliqu´ee et d’aucun int´erˆet pour nous, nous ne la donnons pas ici.

La distribution du χ2est continue `a valeurs positives et pr´esente un ´etalement sur le cˆot´e sup´erieur. Elle ne d´epend que

du nombre de degr´es de libert´e n.

Ci-dessous, densit´e de χ2

npour n= 1,...,6.

stats::chisquarePDF(1)(x)

stats::chisquarePDF(2)(x)

stats::chisquarePDF(3)(x)

stats::chisquarePDF(4)(x)

stats::chisquarePDF(5)(x)

stats::chisquarePDF(6)(x)

0 1 2 3 4 5 6 7 8 9 10 11 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

MA401 : Probabilit´es

1.2 Param`etres descriptifs

E(X) = n , V(X) = 2n.

1.3 Somme de deux variables qui suivent une loi du χ2

Si X1* χ2

n1et X2* χ2

n2sont ind´ependantes, alors X1+X2* χ2

n1+n2.

1.4 Approximation par une loi normale

A mesure que naugmente, la loi du χ2tend vers la loi normale, comme on peut le constater sur le graphique ci-dessous.

stats::chisquarePDF(4)(x)

stats::chisquarePDF(5)(x)

stats::chisquarePDF(8)(x)

stats::chisquarePDF(12)(x)

stats::chisquarePDF(18)(x)

stats::chisquarePDF(30)(x)

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

Densit´e de χ2

npour n= 4, 5, 8, 12, 18, 30.

En pratique, on peut consid´erer que pour n≥30, on peut remplacer la loi du χ2`a ndegr´es de libert´e par la loi normale

N(n, √2n).

1.5 Utilisation de la table de Pearson

Pour des raisons de commodit´e, au lieu de donner la table des fonctions de r´epartition des variables al´eatoires χ2

npour

les diﬀ´erentes valeurs de n, on donne, en fonction de n(nombre de degr´es de libert´e) et d’une probabilit´e αque l’on peut

choisir, la valeur χ2

α,n d´eﬁnie par P(χ2> χ2

α,n) = α.αest un seuil et a en fait une signiﬁcation particuli`ere dans les probl`emes

d’estimation et de tests. Il sera d´eﬁni ult´erieurement.

2 Test d’ajustement de deux distributions : “test du χ2”

2.1 Introduction

Un outil statistique qui permet de v´eriﬁer la concordance entre une distribution exp´erimentale et une distribution th´eorique

est le test de Pearson, appel´e aussi le test du khi-deux.

On cherche donc `a d´eterminer si un mod`ele th´eorique est susceptible de repr´esenter ad´equatement le comportement

probabiliste de la variable observ´ee, comportement fond´e sur les fr´equences des r´esultats obtenus sur l’´echantillon.

Comment proc´eder ?

R´epartitions exp´erimentales

On r´epartit les observations suivant kclasses (si le caract`ere est continu) ou kvaleurs (si le caract`ere est discret). On

dispose alors des eﬀectifs des kclasses : n1,n2, . . . , nk. On a bien sˆur la relation

i=1

ni=N,

o`u Nest le nombre total d’observations eﬀectu´ees.

Remarque 2 Dans la pratique, on se placera dans le cas o`u N≥50 et o`u chaque niest sup´erieur ou ´egal `a 5. Si cette condition

n’est pas satisfaite, il y a lieu de regrouper deux ou plusieurs classes adjacentes. Il arrive fr´equemment que ce regroupement

s’eﬀectue sur les classes aux extr´emit´es de la distribution. krepr´esente donc le nombre de classes apr`es regroupement.

L2 Math´ematiques et Informatique 2009-2010 2 FST - Universit´e Paul C´ezanne

MA401 : Probabilit´es

R´epartitions th´eoriques

En admettant comme plausible une distribution th´eorique particuli`ere, on peut construire une r´epartition id´eale des ob-

servations de l’´echantillon de taille Nen ayant recours aux probabilit´es tabul´ees (ou calcul´ees) du mod`ele th´eorique : p1,

p2, . . . , pk. On obtient alors les eﬀectifs th´eoriques nt,i en ´ecrivant nt,i =N pi. On dispose automatiquement de la relation

i=1

nt,i =N.

D´eﬁnition de l’´ecart entre les deux distributions

Pour ´evaluer l’´ecart entre les eﬀectifs observ´es niet les eﬀectifs th´eoriques nt,i, on utilise la somme des ´ecarts normalis´es

entre les deux distributions, `a savoir

χ2=(n1−nt,1)2

nt,1

+(n2−nt,2)2

nt,2

+··· +(nk−nt,k)2

nt,k

Plus le nombre χ2ainsi calcul´e est grand, plus la distribution ´etudi´ee diﬀ´erer de la distribution th´eorique.

Quelques consid´erations th´eoriques `a propos de cet ´ecart

Le nombre d’observations niparmi l’´echantillon de taille Nsusceptible d’appartenir `a la classe iest la r´ealisation d’une

variable binomiale Nide param`etres Net pi(chacune des Nobservations appartient ou n’appartient pas `a la classe iavec une

probabilit´e pi). Si Nest suﬃsamment grand (on se place dans le cas d’´echantillons de taille 50 minimum) et pipas trop petit

(on a eﬀectu´e des regroupements de classes pour qu’il en soit ainsi), on peut approcher la loi binomiale par la loi normale,

c’est-`a-dire B(N, pi) par N(Npi,pNpi(1 −pi)). Pour simpliﬁer, on approxime Npi(1 −pi) par Npi. Donc Ni−N pi

Npisuit la loi

N(0,1). Lorsqu’on ´el`eve au carr´e toutes ces quantit´es et qu’on en fait la somme, on obtient une somme de klois normales

centr´ees r´eduites (presque) ind´ependantes.

Mais quel est le nombre de degr´es de libert´e de cette variable du khi-deux ?

Il y a kcarr´es, donc `a priori kdegr´es de libert´e. Mais on perd toujours un degr´e de libert´e car on a ﬁx´e l’eﬀectif total de

l’´echantillon,

i=1

Ni=N.

On peut perdre d’autres degr´es de libert´e si certains param`etres de la loi th´eorique doivent ˆetre estim´es `a partir de

l’´echantillon.

1. Si la distribution th´eorique est enti`erement sp´eciﬁ´ee, c’est-`a-dire si on cherche `a d´eterminer si la distribution observ´ee

suit une loi dont les param`etres sont connus avant mˆeme de choisir l’´echantillon, on a k−1 degr´es de libert´e (kcarr´es

ind´ependants moins une relation entre les variables).

2. S’il faut d’abord estimer rparam`etres de la loi `a partir des observations de l’´echantillon (par exemple on cherche si la

distribution est normale mais on ne connaˆıt d’avance ni sa moyenne ni son ´ecart-type), il n’y a plus que k−1−rdegr´es

de libert´e.

Dans le cas g´en´eral, on dira que la loi du khi-deux suivie par l’´ecart entre les deux distributions a k−1−rdegr´es de libert´e

lorsqu’on a estim´e rparam`etres de la loi th´eorique `a partir des observations de l’´echantillon (avec la possibilit´e pour rde

valoir 0).

2.2 Le test d’ajustement de Pearson

Il nous faut maintenant d´ecider, `a l’aide de cet indicateur qu’est le χ2, si les ´ecarts entre les eﬀectifs th´eoriques et ceux qui

r´esultent des observations sont signiﬁcatifs d’une diﬀ´erence de distribution ou si ils sont dus aux ﬂuctuations d’´echantillonnage.

Nous proc´ederons comme d’habitude en quatre ´etapes.

1`ere ´etape : Formulation des hypoth`eses.

On va donc tester l’hypoth`ese H0(appel´ee hypoth`ese nulle) contre l’hypoth`ese H1(hypoth`ese alternative) :

(H0Les observations suivent la distribution th´eorique sp´eciﬁ´ee,

H1Les observations ne suivent pas la distribution th´eorique sp´eciﬁ´ee.

2`eme ´etape : D´etermination de la fonction discriminante du test et de sa distribution de probabilit´e.

On utilise la variable al´eatoire

χ2=(N1−nt,1)2

nt,1

+(N2−nt,2)2

nt,2

+··· +(Nk−nt,k)2

nt,k

3`eme ´etape : D´etermination des valeurs critiques de χ2d´elimitant les zones d’acceptation et de rejet.

On impose `a la zone d’acceptation de H0concernant la valeur du χ2d’ˆetre un intervalle dont 0 est la borne inf´erieure (car

un χ2est toujours positif).

L2 Math´ematiques et Informatique 2009-2010 3 FST - Universit´e Paul C´ezanne

MA401 : Probabilit´es

!,"

P( > )= !

Il nous faut donc d´eterminer dans la table la valeur maximale χ2

α,ν de l’´ecart entre les deux distributions imputable aux

variations d’´echantillonnage au seuil de signiﬁcation α, c’est-`a-dire v´eriﬁant P(χ2> χ2

α,ν ) = α.χ2

α,ν repr´esente donc la valeur

critique pour un test sur la concordance entre deux distributions et le test sera toujours unilat´eral `a droite.

4`eme ´etape : Calcul de la valeur de χ2prise dans l’´echantillon et conclusion du test.

On calcule la valeur χ2

0prise par χ2dans l’´echantillon.

– Si la valeur χ2

0se trouve dans la zone de rejet, on dira que l’´ecart observ´e entre les deux distributions est statistiquement

signiﬁcatif au seuil α. Cet ´ecart est anormalement ´elev´e et ne permet pas d’accepter H0. On rejette H0.

– Si la valeur χ2

0se trouve dans la zone d’acceptation, on dira que l’´ecart-r´eduit observ´e n’est pas signiﬁcatif au seuil α.

Cet ´ecart est imputable aux ﬂuctuations d’´echantillonnage. On accepte H0.

L2 Math´ematiques et Informatique 2009-2010 4 FST - Universit´e Paul C´ezanne

MA401 : Probabilit´es

3 Table de Pearson

LOI DE PEARSON

!,"

P( > )= !

La table donne χ2

α,ν tel que P(|χ2

α,ν |> tα) = α.

ν\α0.99 0.98 0.95 0.9 0.8 0.2 0.1 0.05 0.02 0.01

1 0.000 0.001 0.004 0.016 0.064 1.642 2.706 3.841 5.412 6.635

2 0.020 0.040 0.103 0.211 0.446 3.219 4.605 5.991 7.824 9.210

3 0.115 0.185 0.352 0.584 1.005 4.642 6.251 7.815 9.837 11.345

4 0.297 0.429 0.711 1.064 1.649 5.989 7.779 9.488 11.668 13.277

5 0.554 0.752 1.145 1.610 2.343 7.289 9.236 11.070 13.388 15.086

6 0.872 1.134 1.635 2.204 3.070 8.558 10.645 12.592 15.033 16.812

7 1.239 1.564 2.167 2.833 3.822 9.803 12.017 14.067 16.622 18.475

8 1.646 2.032 2.733 3.490 4.594 11.030 13.362 15.507 18.168 20.090

9 2.088 2.532 3.325 4.168 5.380 12.242 14.684 16.919 19.679 21.666

10 2.558 3.059 3.940 4.865 6.179 13.442 15.987 18.307 21.161 23.209

11 3.053 3.609 4.575 5.578 6.989 14.631 17.275 19.675 22.618 24.725

12 3.571 4.178 5.226 6.304 7.807 15.812 18.549 21.026 24.054 26.217

13 4.107 4.765 5.892 7.042 8.634 16.985 19.812 22.362 25.472 27.688

14 4.660 5.368 6.571 7.790 9.467 18.151 21.064 23.685 26.873 29.141

15 5.229 5.985 7.261 8.547 10.307 19.311 22.307 24.996 28.259 30.578

16 5.812 6.614 7.962 9.312 11.152 20.465 23.542 26.296 29.633 32.000

17 6.408 7.255 8.672 10.085 12.002 21.615 24.769 27.587 30.995 33.409

18 7.015 7.906 9.390 10.865 12.857 22.760 25.989 28.869 32.346 34.805

19 7.633 8.567 10.117 11.651 13.716 23.900 27.204 30.144 33.687 36.191

20 8.260 9.237 10.851 12.443 14.578 25.038 28.412 31.410 35.020 37.566

21 8.897 9.915 11.591 13.240 15.445 26.171 29.615 32.671 36.343 38.932

22 9.542 10.600 12.338 14.041 16.314 27.301 30.813 33.924 37.659 40.289

23 10.196 11.293 13.091 14.848 17.187 28.429 32.007 35.172 38.968 41.638

24 10.856 11.992 13.848 15.659 18.062 29.553 33.196 36.415 40.270 42.980

25 11.524 12.697 14.611 16.473 18.940 30.675 34.382 37.652 41.566 44.314

26 12.198 13.409 15.379 17.292 19.820 31.795 35.563 38.885 42.856 45.642

27 12.879 14.125 16.151 18.114 20.703 32.912 36.741 40.113 44.140 46.963

28 13.565 14.847 16.928 18.939 21.588 34.027 37.916 41.337 45.419 48.278

29 14.256 15.574 17.708 19.768 22.475 35.139 39.087 42.557 46.693 49.588

30 14.953 16.306 18.493 20.599 23.364 36.250 40.256 43.773 47.962 50.892

L2 Math´ematiques et Informatique 2009-2010 5 FST - Universit´e Paul C´ezanne

1 / 8 100%

Documents connexes

Séance 09

Correction du contrôle 1 Exercice 1 Déterminer {P ∈ C[X]|P(X + Y

Département d`informatique. ´Evaluation des travaux - Cours-info

[PDF]

Outils de Simulation 2 Exercice Estimation d`une médiane par l

Processus aléatoires avec application en finance

Utilisation de la lgn et du tlc en statistique 1 Loi de grands

Feuille de TD 5 - Lipn

Extraits de la feuille de TD n 1 Modélisation probabiliste

Processus aléatoires avec application en finance

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Autour du test du Chi2

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Autour du test du Chi2

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib