Le cours en ppt (1/3)

publicité
L2 STE
1
Plan
Intervalles de confiance & tests statistiques
•Echantillonnage, rappels
•Intervalle de confiance
Moyenne
Variance et écart type
Médiane
Pourcentage
•Tests usuels
Principe (rappels)
Théorie de la statistique de décision (rappels)
Comparaison de deux moyennes expérimentales (grands et petits échantillons)
Comparaison de moyennes de deux échantillons appariés Comparaison de deux
fréquences expérimentales
Comparaison de deux variances expérimentales
•Tests non-paramétriques
Conditions d’utilisation
Utilisation des rangs
Test de signe Test U de Mann-Whitney
Test de Wilcoxon
Test de Kolmogorov-Smirnov
21/04/2017
Statistiques
2
Echantillonnage – Estimation d’un paramètre
Extraction de n échantillons d’une population P
Si l’on extrait plusieurs échantillons représentatifs de taille n fixée, les
différences observées entre les résultats obtenus sont dues à des
fluctuations d’échantillonnage. A partir d’un échantillon, on n’a donc pas
de certitudes mais des estimations de paramètres.
L'estimation d'un paramètre peut être faite
- par un seul nombre: estimation ponctuelle
- par 2 nombres entre lesquels le paramètre peut se trouver: estimation
par intervalle
3
Echantillonnage – Estimation d’un paramètre
Estimation ponctuelle d’une moyenne
n
1
x   xi
n i 1
x barre
sx
sx 
n
n
sx 
2
2
(
x

x
)
 i
i 1
n 1
Estimateur sans biais
Ecart type de la moyenne
4
Echantillonnage – Estimation d’un paramètre
Pour améliorer la connaissance de la moyenne, il faut augmenter la taille de
l’échantillon
5
Echantillonnage – Estimation d’un paramètre
Intervalle de confiance de la moyenne
Cas des grands échantillons (variance connue):
Soit une population obéissant à une loi normale de moyenne m et
d’écart type s.
Pr( x  Z / 2 
s
n
 m  x  Z / 2 
s
n
)  1
6
Echantillonnage – Estimation d’un paramètre
Exemple:
45 hommes de Neandertal males adultes
x  164 cm
s  10 cm
10
10 

m  164  1.96 
;164  1.96 

45
45 

m  161;166.9 à 95% de confiance
m  164  2.9
7
Echantillonnage – Estimation d’un paramètre
8
Echantillonnage – Estimation d’un paramètre
Intervalle de confiance de la moyenne
Cas des petits échantillons:
Quand n<30 ou quand la variance est inconnue, on prend la loi
de Student.
sx
sx
Pr( x  t / 2 
 m  x  t / 2 
)  1
n
n
Pour n = n-1 degrés de liberté
Finalement on peut toujours utiliser la loi de Student puisque t
tend vers la loi normale quand n est grand…
9
La loi de Student: t(n)
n degrés de liberté
Converge vers la loi Normale quand n augment.
10
La loi de Student: t(n)
La probabilité d’obtenir une valeur de t à l’extérieur de l’intervalle
(-t/2 et t/2) -> TABLES.
P(t t /2)
11
Echantillonnage – Estimation d’un paramètre
12
Echantillonnage – Estimation d’un paramètre
Exemple:
6 hommes de Neandertal males adultes
x  165 cm
s x  11 cm
11
11 

m  165  2.57 
;165  2.57 

6
6


m  153;177 à 95% de confiance
m  165  12
Finalement on peut toujours utiliser la loi de Student puisque t
tend vers la loi normale quand n est grand…
13
Echantillonnage – Estimation d’un paramètre
Intervalle de confiance de la variance
Soit une population obéissant à une loi normale de moyenne m
(inconnue) et d’écart type s (inconnu).
Pr(
(n  1)  s x2

2
(1 / 2 )
s 2 
(n  1)  s x2
 / 2
2
)  1
Pour n = n-1 degrés de liberté
14
La loi du Khi carré: 2
Si Z1, Z2, Zn sont des variables aléatoires normales centrées
réduites et indépendantes entres elles, la somme des carrées de
ces varaibles aléatoires obéit à la loi du 2 à n degrés de libertés
  Z  Z  ....  Zn
2
2
1
2
2
2
15
La loi du Khi carré: 2
16
La loi du Khi carré: 2
En fait, les calculs sont fastidueux -> TABLES
  P(  2  2 )
17
La loi du Khi carré: 2
18
Echantillonnage – Estimation d’un paramètre
Intervalle de confiance de l’écart type (idem)
Soit une population obéissant à une loi normale de moyenne m et
d’écart type s.
Pr(
(n  1)  s x2

2
(1 / 2 )
s 
(n  1)  s x2
 / 2
2
)  1
Pour n = n-1 degrés de liberté
19
Echantillonnage – Estimation d’un paramètre
Intervalle de confiance de la médiane
Si un échantillon est extrait d’une population approximativement
normale, et si son effectif est relativement grand (n>60), la distribution
d’échantillonnage de la médiane s’approche de la loi normale.
sMe  s x
Pr( Me  Z / 2  sx 

2n

2n
 Mediane  Me  Z / 2  sx 

2n
)  1
20
Echantillonnage – Estimation d’un paramètre
Estimation ponctuelle d’un pourcentage
La population est formée d’individus ayant ou non un caractère A. Soit p
la probabilité pour qu’un individu pris au hasard dans la population
présente le caractère A.
p  a/n
p(1  p)
s 
n 1
2
p
Quand on dispose d’un seul échantillon de taille n, la meilleure
estimation ponctuelle de P est donc la fréquence p observée sur
l’échantillon.
21
Echantillonnage – Estimation d’un paramètre
Intervalle de confiance d’un pourcentage
Grands échantillons (n>30), p ni voisin de 0, ni voisin de 1, (np>5, n(1p)>5)
La variable fréquence obéit à une loi normale centrée réduite
Pr( p  Z / 2 
p(1  p)
 P  p  Z / 2 
n
p(1  p)
)  1
n
22
Echantillonnage – Estimation d’un paramètre
Un problème très fréquent!
Un quotidien publie tous les mois la cote du chef du gouvernement à
partir d'un sondage réalisé sur un échantillon représentatif de 1000
personnes. En janvier, la cote publiée était de 38% d'opinions
favorables, en février de 36%. Un journaliste commente alors ces
valeurs par "Le chef du gouvernement perd 2 points !!"
En fait: On construit un intervalle de confiance autour des
proportions. Avec un seuil de 95%, on obtient respectivement [35;41]
et [33;39] pour les valeurs 38% et 36%. Les deux intervalles ayant
une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse
ou augmentation de la cote du chef de gouvernement.
23
L2 STE
24
Théorie de la statistique de décision
Quel est le problème…?
On sait qu’un homme de Neandertal
mesure en moyenne 165 cm.
Sur un site on trouve 16 hommes avec
une moyenne de 167 et un écart type de
8 cm (e.t. échantillon).
Comparaison de la moyenne avec la
valeur théorique de 165 cm
Possibilités:
Moyenne très élevée: Nous pourrons être amenés à croire que ces
hommes ont des tailles différentes de 165 cm
Moyenne faiblement plus élevée: on ne pourra pas conclure si c’est
significativement supérieur à la norme ou si c’est l’effet du hasard.
25
Théorie de la statistique de décision
Question: à partir de quelle limite pouvons nous raisonnablement
conclure à une différence?
H0: m=165 (il n’y pas de différence)
H1: m≠165
Calcul de
sx
8
sx 

2
n
16
Sur la table la probabilité pour que la moyenne
d’échantillonnage soit différente celle de la
population de plus 2,131 de écart-type est de 5%.
26
Théorie de la statistique de décision
Les deux risques d’erreur dans un test.
Erreur de 2nde espèce (compliquée)
1-
Décision
H0 acceptée
H0 rejetée
H0 est vraie
Bonne décision
Erreur 
H1 est vraie
Erreur 
Bonne décision
1-
Erreur de 1ere espèce
A priori on ne sait pas à quel type d’erreur on sera confronté:
Le résultat de l’échantillon a révélé 167 cm probablement par pur hasard.
On conclue que la moyenne pourrait être 165 cm alors qu’en fait elle est
mesurée à 167 cm.
27
Théorie de la statistique de décision
H0 : hypothèse nulle ou principale
Ex: Les haches de type A présentent les mêmes teneurs en Sn que
les haches de type B.
H1 : hypothèse alternative ou contraire …
Soumission à une épreuve de vérité!
Conclusion : différence attribuable aux fluctuations
d’échantillonnage???
28
Théorie de la statistique de décision
Niveau de signification : un peu arbitraire…
significatif : 0.05
hautement significatif : 0.01
très hautement significatif : 0.001.
Test bilatéral / unilatéral :
bilatéral : différence sans se préoccuper du sens.
Unilatéral : > ou <. Zone de rejet d’un seul coté de la distribution de
probabilité de référence.
Echantillons indépendants ou appariés:
Indépendants : aucune influence du 1er ech sur le 2nd.
Appariés : prélèvements par paires. Ex : fumeurs H + F.
29
Comparaison de deux moyennes expérimentales–grands échantillons Comparaison des moyennes de 2 grands échantillons
indépendants (n1 et n2 >30):
Deux échantillons qui suivent des lois normales: m1, s21; m2, s22
H0 : m1  m2
Zc 
x1  x2
s
2
x1
n1

s
2
x2
n2
Si H0 est vraie, Zc suit une loi normale N(0,1)
30
Comparaison de deux moyennes expérimentales–grands échantillons H1 : m1 ≠ m2 bilatéral
31
Comparaison de deux moyennes expérimentales–grands échantillons H1 : m1  m2 unilatéral
32
Comparaison de deux moyennes expérimentales–grands échantillons H1 : m1  m2 unilatéral
33
Comparaison de deux moyennes expérimentales–grands échantillons Pour résumer:
H0
m1 = m2
H1
m1  m2
m1 > m2
m1 < m2
Rejet de H0 si
|Zc|  |z/2|
Zc  z
Zc  z
 = 0.05
|z/2| = 1.96
z = 1.64
z = 1.64
 = 0.01
|z/2| = 2.57
z = 2.33
z = 2.33
Maintenant un exemple...
34
Comparaison de deux moyennes expérimentales–grands échantillons Taille des silex sur deux sites
n2  67
n1  50
x1  158,86mm
x2  134,46mm
s  37,18mm
s x22  25,92mm2
2
x1
s x1  6,09mm
2
s x2  5,09mm
Les moyennes de ces deux échantillons prélevés indépendamment l’un
de l’autre diffèrent-elles d’une façon hautement significative?
35
Comparaison de deux moyennes expérimentales–grands échantillons -
n1 et n2 grands -> test sur la loi normale
H0 : ma = mb
H1 : ma  mb (bilatéral)
Zc 
x1  x2
s x21 s x22

n1 n2
158.86  134.66
Zc 
 22.9
37.18 25.92

50
67
 = 0.01, Z/2 = 2.57
36
Comparaison de deux moyennes expérimentales–grands échantillons -
H0 rejetée au seuil de signification de 1%
37
Comparaison d’une moyenne empirique à une moyenne théorique
Même principe que précédemment (quand n est grand):
H0: m=m0
x  m0
Zc 
sx
n
que l’on teste sur la loi normale N(0,1)
38
Comparaison de deux moyennes expérimentales– petits échantillons Cas des petits échantillons: Test t
Deux populations normales m1 et m2 de même variance (au moins
approximativement) s2. Si n1 et n2 sont petits, s2x1 et s2x2 sont des
estimateurs peu précis de s2.
Dans ce cas, la variable différence centrée réduite n’obéit plus à une loi
normale mais à une loi de Student à n=n1+n2-2 degrés de liberté.
39
Comparaison de deux moyennes expérimentales– petits échantillons La variance de la distribution des différences de moyennes est
estimées par s2D
1 1
s  s    
 n1 n2 
2
D
2
pd
avec
s
2
pd

(n1  1) s x21  (n2  1) s x22
n1  n2  2
40
Comparaison de deux moyennes expérimentales– petits échantillons Ce qui donne…
H0 : ma = mb
x1  x2
tc 
sD
Avec n = n1 + n2 - 2
41
Comparaison de deux moyennes expérimentales– petits échantillons Si les variances s’avèrent inégales alors test t modifié.
tcm 
avec
x1  x2
 s x21 s x22 
 

n

n
2 
 1
2
s
s 
  
 n1 n2 
n
2
2 2
2
 s x1   s x2 
   
n  n 
 1   2 
n1  1
n2  1
2
x1
2
x2
42
Comparaison d’une moyenne empirique à une moyenne théorique
Même principe que précédemment. Suivant si n est petit ou grand, on
calcule les variables auxiliaires suivantes:
H0: m=m0
x  m0
tc 
sx
n
x  m0
Zc 
sx
n
que l’on teste sur la loi de Student ou loi normale N(0,1)
43
Comparaison de moyennes de deux échantillons appariés
Fondée sur les différences de chaque paire d’éléments
d i  xi1  xi2
On imagine que la différence obéit à une loi normale, mais en général
on utilise une loi de Student à n-1 degrés de liberté:
n
sd
sd 
et sd 
n
2
(
d

d
)
 i
i 1
n 1
44
Comparaison de moyennes de deux échantillons appariés
H0 : m1 = m2 ou md = 0
tc 
d
sd
H1: m1  m2 , bilatéral
H1: m1 > m2 , unilatéral
H1: m1 < m2 , unilatéral
t calculé pour n = n-1 degrés de liberté
45
Comparaison de deux fréquences expérimentales
Comparaison des fréquences de 2 grands échantillons
indépendants.
Deux échantillons : f1, n1; f2, n2
On approxime la loi binomiale par la loi normale mais:
n1>30, n2>30, n1f1>5, n2f2>5, n1(1-f1)>5, n2(1-f2)>5
H 0 : p1 = p 2 = p
46
Comparaison de deux fréquences expérimentales
Sous H0 on peut réunir les deux échantillons, et on est conduit à l’estimation
de p
n1 f1  n2 f 2
pˆ 
n1  n2
Zc devient
Zc 
H1: p1≠p2
H1: p1>p2
H1: p1<p2
f1  f 2
1 1
pˆ (1  pˆ )  
 n1 n2 
Test sur la loi normale N(0,1)
47
Comparaison d’une fréquence empirique et d’une fréquence théorique
La différence entre f (mesuré) et p (théorique) est-elle seulement
explicable par les aléas dus à l’échantillonnage?
On approxime la loi binomiale par la loi normale mais:
n>30, np>5 et nq>5
H 0: f = p
Zc 
H1: f≠p
H1: f>p
H1: f<p
f p
p (1  p )
n
Test sur la loi normale N(0,1)
48
Comparaison de deux variances expérimentales
Deux échantillons qui suivent des lois normales: m1, s21; m2, s22
Plus grande variance
H0: s21=s22
calcul de :
Fc 
s
s
2
xA
2
xB
>1
Plus petite variance
Si H0 est vraie, Fc suit une loi de Fisher-Snedecor avec n1=n1-1 et
n2=n2-1
49
La loi de Fisher - Snedecor : F(n1,n2)
Soit 21 et 22, un couple de variables aléatoires indépendantes
suivant respectivement des lois du 2 à n1 et n2 degrés de libertés.
 /n 1
F
 /n 2
2
1
2
2
Utile pour les tests de variance et de covariance
50
La loi de Fisher - Snedecor : F(n1,n2)
  P( Fn ,n  F n ,n  )
1
2
1
2
51
Comparaison de deux variances expérimentales
H1: s21>s22
Sous H0: Pr(Fc<F)=1-
rejet H0
Accept. H0
F
52
Comparaison de deux variances expérimentales
H1: s21≠s22
Sous H0 : Pr(Fc<F/2)=1-
Accept. H0
rejet H0
/2
F/2
53
Comparaison de deux variances expérimentales
Table de
FisherSnedecor
54
21/04/2017
Statistiques
55
Plan
1. Généralités
Conditions d’application
Utilisation des rangs
2. Les tests:
Le test de signes
Le test U de Mann-Whitney
Le test de Wilcoxon
Le test de Kolmogorov Smirnov
21/04/2017
Statistiques
56
1. Généralités – Conditions d’application
Pourquoi et quand utiliser des statistiques non-paramétriques?
Les tests non paramétriques ne font aucune hypothèse sur la distribution sousjacente des données. On les qualifie souvent de tests distribution free.
L’étape préalable consistant à estimer les paramètres des distributions
(p.e. moyenne et écart type) avant de procéder au test d’hypothèse
proprement dit n’est plus nécessaire.
Quand?:
1.
L’échelle des données est ordinale plutôt que sous forme d’intervalles ou
de rapports. Dans ce cas les opérations arithmétiques n’ont pas de sens!
2.
Les mesures sont sur des échelles d’intervalles ou de rapports mais les
distributions de fréquences observées sont très éloignées de la
distribution normale.
21/04/2017
Statistiques
57
1. Généralités – Conditions d’application
Données
Paramétrique
Non-paramétrique
Distribution normale
n grand
Précis et fiable
Si H0 est rejeté, le
résultat devrait être le
même qu’avec le test
paramétrique
Si H0 est accepté, le
résultat n’est peut être
pas fiable
Distribution non
normale
n petit
21/04/2017
Résultat absolument
pas fiable: souvent un
rejet de H0 abusif
Statistiques
Meilleur résultat
possible avec de telles
données
58
1. Généralités – Utilisation des rangs
Données
x1 = 4,3
x2 = 9,3
x3 = 0,3
x4 = 2,9
x5 = 3,2
x6 = 7,7
x7 = 5,0
x8 = 0,4
21/04/2017
Rangs
R(x1) = 5
R(x2) = 8
R(x3) = 1
R(x4) = 3
R(x5) = 4
R(x6) = 7
R(x7) = 6
R(x8) = 2
Statistiques
Maintenant, on ne travaille plus
que sur les rangs
On pourrait ordonner du plus grand
au plus petit. Les rangs seraient
différents, mais les tests aboutiraient
au mêmes résultats!
Si x2 avait été 1000, x2 aurait eu le
même rang (donc perte
irrémédiable d’information)!
59
1. Généralités – Utilisation des rangs
Données
x1 = 4,3
x2 = 9,3
x3 = 0,3
x4 = 0,4
x5 = 3,2
x6 = 7,7
x7 = 5,0
x8 = 0,4
21/04/2017
Rangs
R(x1) = 5
R(x2) = 8
R(x3) = 1
R(x4) = 2,5
R(x5) = 4
R(x6) = 7
R(x7) = 6
R(x8) = 2,5
Statistiques
Si 2 valeurs ou plus sont identiques,
le rang devient la moyenne des
rangs de la paire ou du groupe
En pratique, souvent peu
crucial…
60
1. Généralités – Rappels sur la médiane
Si n est impair: médiane = valeur du point
avec le rang (n+1)/2
Si n est pair: médiane entre les valeurs
des points qui ont les rangs n/2 et (n+2)/2
Valeur pour laquelle la fréquence cumulée est égale à 0.50 ou point
qui partage la distribution en 2 parties égales.
med  x n1 


 2 
x n   x n  2 
med 
Pour n impair
21/04/2017
 
2


 2 
2
Pour n pair
Statistiques
61
2. Les tests – Le test des signes (petits échantillons)
Alternative non-paramétrique au test t
Cas d’un petit échantillon
Voyons un exemple: ces mesures de mercure dans les sols sont-elles
issues d’une population dont la médiane serait 40 ppm?
Hg
ppm
Signe
56
42
61
61
42
55
35
42
39
+
+
+
+
+
+
-
+
-
65 44
+
+
51
32
82
41
+
-
+
+
Résultat : 3 (–) et 12 (+)
Question: Est-ce significativement différent de 50% (-) et 50% (+)?
Il semble qu’il y ait déséquilibre… à voir…
21/04/2017
Statistiques
62
2. Les tests – Le test des signes (petits échantillons)
Imaginons que (+) soit un succès: p = 0,5.
On peut appliquer la distribution binomiale, avec x, le nombre
d’apparitions, p, la probabilité de succès, n, le nombre de tentatives:
P( x )  C q
x
n
n x
n!
n x x
p 
q p
(n  x )! x!
x
Probabilité de 7 succès (ou 8) sur 15 essais = 0,19638
Probabilité de 6 succès (ou 9) sur 15 essais = 0,15274
Probabilité de 5 succès (ou 10) sur 15 essais = 0,09164
Probabilité de 4 succès (ou 11) sur 15 essais = 0,04166
La somme de ces probabilités = 0,9648, donc plus de 95% de chances
de se retrouver avec de 4 à 11 (+).
21/04/2017
Statistiques
63
2. Les tests – Le test des signes (petits échantillons)
On pose les hypothèses:
H0: la médiane = 40 ppm Hg
H1: la médiane ≠ 40 ppm Hg
Avec 12(+), on rejette H0 car on a déjà plus de 96% de chances de se
trouver entre 4 (+) et 11 (+) par le simple fait du hasard. On en conclue
donc que la médiane de la population est significativement différente
de 40 ppm de Hg.
21/04/2017
Statistiques
64
2. Les tests – Le test des signes (grands échantillons)
Quand n est suffisamment grand (n>20), on peut utiliser l’approximation
normale de la loi binomiale avec une correction de continuité
Exemple:
Durée de vie supposée d’un foret pétrolier > 250h
271
253
264
230
216
295
198
262
211
275
288
252
282
236
294
225
291
243
284
253
272
219
224
268
+
+
+
+
+
-
+
+
+
+
+
+
-
+
+
+
+
15(+), 9(-)
H0: médiane de la population = médiane hypothétique spécifiée
H1: médiane de la population > médiane hypothétique spécifiée
Attention test unilatéral
21/04/2017
Statistiques
65
2. Les tests – Le test des signes (grands échantillons)
Z
X m
s
X  Np

Npq
Correction de continuité (puisque la loi binomiale est discrète alors que
la loi normale est continue): Il faut retrancher 0.5 à X si X>Np et ajouter
0.5 à X si X<Np.
(15  0,5)  24.0,5
Z
 1,02
24.0,5.0,5
Ici c’est un test unilatéral, Z0,05= 1,645. Z<Z0.05, donc H0 n’est pas
rejetée. La publicité de la marque n’est pas justifiée!!!
21/04/2017
Statistiques
66
2. Les tests – Le test U de Mann-Whitney
Alternative non-paramétrique du test t à deux échantillons.
Probablement le test non-paramétrique le plus utilisé dans la littérature.
Il teste l’hypothèse nulle d’égalité des médianes de populations à partir
desquelles deux échantillons sont tirés.
H0: médiane de la population x = médiane de la population y
H1: médiane de la population x ≠ médiane de la population y
21/04/2017
Statistiques
67
2. Les tests – Le test U de Mann-Whitney (petits échantillons)
Le plus simple: traiter un exemple
Alliage A (n1=8)
Alliage B (n2=10)
18.3 16.4 22.7 17.8
18.9 25.3 16.1 24.2
12.6 14.1 20.5 10.7
15.9 19.6 12.9 15.2
11.8 14.7
Etape 1: Transformation en rangs
Plus petit effectif = n1
Alliage A
Alliage B
12 10 16 11
13 18 9 17
3 5 15 1
8 14 4 7
2 6
Etape 2
R1:Somme rangs = 106
21/04/2017
R2 : somme rangs = 65
Statistiques
68
2. Les tests – Le test U de Mann-Whitney (petits échantillons)
Pour tester la différence entre les rangs, on utilise la statistique suivante.
Calcul de U pour l’échantillon 1 & 2
n1 (n1  1)
U1  n1n2 
 R1
2
n2 (n2  1)
U 2  n1n2 
 R2
2
U = min (U1,U2)
Ici
n1 (n1  1)
8.9
U1  n1n2 
 R1  8.10 
 106  10
2
2
n2 (n2  1)
10.11
U 2  n1n2 
 R2  8.10 
 65  70
2
2
Donc U=10
21/04/2017
Statistiques
69
2. Les tests – Le test U de Mann-Whitney (petits échantillons)
Si n1 & n2 < 20:
Valeurs limites m
fournie par une table
telle que sous H0,
P(U<m)=
On rejette H0 si U<m
Ici U<17, donc H0 est
rejeté. Il y a donc une
différence significative
entre les deux
groupes
21/04/2017
Statistiques
70
2. Les tests – Le test U de Mann-Whitney (grands échantillons)
Si n1 & n2 > 20, la distribution U peut être approchée par une
distribution normale de telle sorte que
z
U  mU
sU
n1n2
mU 
2
avec
n1n2 (n1  n2  1)
sU 
12
Ceci se teste tout naturellement sur la loi normale…
Accepter H0 si –Z/2<Z<Z/2, sinon rejeter H0
21/04/2017
Statistiques
71
2. Les tests – Le test de Wilcoxon
Comparaison de deux échantillons appariés (chaque valeur d’un
échantillon est associée à une valeur de l’autre échantillon, les deux
ont la même taille).
Question: Existe-t-il une différence entre les 2 échantillons?
H0: Pas de différence entre les deux groupes
H1: Une différence entre les deux groupes
M
5
4
2
3
4
3
8
5
4
5
R
6
3
3
1
1
3
4
2
5
7
-1
2
3
0
4
3
-1
-2
Diff -1 1
Calcul de la différence
n = nombre de différences non nulles = 9
21/04/2017
Statistiques
72
2. Les tests – Le test de Wilcoxon (petits échantillons)
Test de Wilcoxon
On classe ensuite les différences par ordre croissant de valeurs absolues
Val. -1
Rg
1
-1
-1
2
-2
3
3
4
2.5 2.5 2.5 2.5 5.5 5.5 7.5 7.5 9
On affecte à chaque différence son rang dans le classement
w+ : somme des rangs des différences positives
w- : somme des rangs des différences négatives
w+ = 2.5 + 5.5 + 7.5 + 7.5 + 9 = 32
w- = 2.5 + 2.5 + 2.5 + 5.5 = 13
w = min (w+, w-) = 13
21/04/2017
Statistiques
73
2. Les tests – Le test de Wilcoxon (petits échantillons)
Niveau de signification, test unilatéral
0,025
2 cas possibles:
0,005
Niveau de signification, test bilatéral
0,05
Si n<25 (empirique), alors on utilise
une table
Sous H0, P(W<w)= avec  = 0.05 et
 = 0.01
On rejette l’hypothèse nulle si w<w
Ici, pour n = 9 et  = 0.05, w = 6
w > w0.05 donc on ne peut pas rejeter
H0. Il n’y a pas de différence
significative entre les deux
échantillons.
21/04/2017
0,01
n
Statistiques
0,02
0,01
6
0
7
2
0
8
4
2
0
9
6
3
2
10
8
5
3
11
11
7
5
12
14
10
7
13
17
13
10
14
21
16
13
15
25
20
16
16
30
24
20
17
35
28
23
18
40
33
28
19
46
38
32
20
52
43
38
21
59
49
43
22
66
56
49
23
73
62
55
24
81
69
61
25
89
77
68
74
2. Les tests – Le test de Wilcoxon (grands échantillons)
Si n>25, lorsque H0 est vraie, W suit approximativement une loi normale
N(m,s) avec
mw 
n(n  1)
4
s
n(n  1)( 2n  1)
24
On calcule la valeur de la variable normale centrée réduite:
Z
w  mw
s
La valeur est comparée à la valeur Z de la loi normale. Si
–Z/2<Z<Z/2 on accepte H0
21/04/2017
Statistiques
75
2. Les tests – Le test de Kolmogorov Smirnov
Test non paramétrique de conformité de Kolmogorov Smirnov
Il consiste à calculer les différences existants entre les distributions de
fréquences relatives cumulées de deux échantillons et à vérifier si la
plus grande différence peut être fortuite ou pas (Dobs).
H 0 : f rel.cum. ( xi )  f rel.cum. ( xi2 )xi
1
H1 : f rel.cum. ( xi )  f rel.cum. ( xi2 )
1
Pour au moins une valeur de xi
Simple sur un exemple…
21/04/2017
Statistiques
76
2. Les tests – Le test de Kolmogorov Smirnov
Domaine vital de l’ours noir (F & M)
Question: L’étendue du domaine vital des
ours noirs males est-elle différente de celle
du domaine des femelles?
Hypothèses:
H 0 : f rel.cum. ( xi )  f rel.cum. ( xiF )xi
M
H1 : f rel.cum. ( xi )  f rel.cum. ( xiF )
M
Pour au moins une valeur de xi
21/04/2017
Statistiques
Sexe
Domaine
vital
(km2)
F
F
M
M
F
M
F
F
M
F
M
M
F
F
F
37
72
94
504
60
173
49
18
560
50
274
168
102
49
20
77
2. Les tests – Le test de Kolmogorov Smirnov
Freq cum abs.
Freq cum rel.
Diff.
xi
Fcum(xiF)
Fcum(xiM)
Fcum(xiF)/nF
(A)
Fcum(xiM)/nM
(B)
(A)-(B)
18
20
37
49
50
60
72
94
102
168
173
274
504
560
1
2
3
5
6
7
8
8
9
9
9
9
9
9
0
0
0
0
0
0
0
1
1
2
3
4
5
6
0,111
0,222
0,333
0,555
0,666
0,777
0,888
0,888
1
1
1
1
1
1
0
0
0
0
0
0
0
0,166
0,166
0,333
0,500
0,666
0,833
1
0,111
0,222
0,333
0,555
0,666
0,777
0,888
0,722
0,833
0,666
0,500
0,333
0,166
0
21/04/2017
Statistiques
Diff. max.
Dobs
0,888
78
2. Les tests – Le test de Kolmogorov Smirnov
1,0
Freq. Cum.
0,8
0,6
Dobs = 0,888
0,4
0,2
0,0
18 20 37 49 50 60 72 94 102 168 173 274 504 560
F
M
21/04/2017
Taille (km2)
Statistiques
79
2. Les tests – Le test de Kolmogorov Smirnov
Ici cas des petits échantillons nF & nM < 25 (en fait nF=9 et nM=6)
On calcule une variable auxiliaire KS = nF nM Dobs = 9.6.0,888 = 47,952 = 48
Dans la table, la valeur critique
s’élève à 39 pour  = 0,05
Si KS>KS, alors on rejete H0
(rejet des valeurs trop
grandes)
Ici 48>39, donc on rejette H0
Conclusion: L’étendue du
domaine vital des mâles diffère
significativement de l’étendue
du domaine des femelles.
21/04/2017
Statistiques
80
2. Les tests – Le test de Kolmogorov Smirnov
Si au contraire n1 & n2 sont supérieurs à 25 on calcule :
D  KS
n1  n2
n1n2
avec
1
KS 
( ln  / 2)
2
Si Dobs > D, l’hypothèse H0 est refusée au profit de H1
21/04/2017
Statistiques
81
Téléchargement