Bases : Probabilités, Estimation et Tests.

publicité
Université René Descartes
UFR Biomédicale,
45 rue des Saints-Père, 75 006 Paris
LMD Sciences de la Vie et de la Santé
M1 de Santé Publique
Spécialité Biostatistique
M1
COURS de BIOSTATISTIQUE I
Bases : Probabilités, Estimation et Tests.
C. Huber
1
Table des matières
I Probabilités. Principes des tests et de l'estimation
1 Introduction
2 Calcul de probabilités et variables aléatoires réelles
3 Quelques lois de probabilité
A Lois continues
a. Lois normales
b. Lois exponentielles
c. Lois gamma
d. Lois du chi deux
e. Lois béta
f. Lois de Fisher-Snedecor
g. Lois de Student
B Lois discrètes
a. Lois de Bernoulli
b. Lois binomiales
c. Lois multinomiales
d. Lois de Poisson
4 Approximations
a. Approximation normale de la binomiale
b. Approximation normale d'une somme
c. Approximation de Poisson de la binomiale
d. Approximation normale du chi deux
5 Principe des tests
6 Principe de l'estimation et maximum de vraisemblance
II
3
3
5
5
5
7
7
8
9
10
10
10
10
10
11
11
12
12
12
13
13
14
15
Tests d'ajustement
1 Introduction
2 Test d'ajustement du chi2 pour une loi spécifiée
a. cas discret
b. cas continu
3 Test d'ajustement du chi2 avec estimation de paramètres
4 Test de Kolmogorov-Smirnov pour un échantillon
17
17
17
18
19
23
III Mise en évidence de liaisons : tests d'indépendance
1 Cas de deux variables discrètes
a. à deux valeurs
b. à un nombre quelconque de valeurs
2 Cas d'une variable continue et d'une variable à deux valeurs
Test de comparaison de deux échantillons
Tests non paramétriques
Test de la médiane
Test de Wilcoxon
Test de Kolmogorov-Smirnov pour 2 échantillons
C. Huber
25
25
27
29
30
32
33
35
36
2
3 Cas de deux variables continues
a. Couple normal : test du coefficient de corrélation
b. Cas général : tests non paramétriques
coefficient de corrélation des rangs de Spearman
coefficient de corrélation de Kendall
c. Intervention d'un troisième facteur
coefficient de corrélation partielle
38
38
39
39
41
43
43
IV Tests non paramétriques pour comparer k échantillons
1 k échantillons indépendants
Extension du test de la médiane
Test de Kruskal-Wallis
2 k échantillons liés
Test de Cochran
Test de Friedman
45
46
49
52
52
54
V Exercices
57
Tables
Normale
Student
Chi deux
T1
T2
T3
T4
Kolmogorov-Smirnov pour un échantillon
Wilcoxon, Mann-Whitney
Spearman
Kolmogorov-Smirnov pour deux échantillons
Kendall
Fisher-Snedecor
Kruskal-Wallis
Friedman
C. Huber
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15
T16
T17
T18
T19
T20
T21
T22
Probabilités et notions fondamentales
3
I Introduction :
Quelques notions de probabilités. Tests et estimateurs simples.
1 - Introduction
Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la
compréhension des méthodes d'analyse statistique ainsi que les notions de base pour
l'estimation de paramètres et les tests d'hypothèses.
Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une
variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une
généralisation du problème de comparaison d'une proportion observée à une proportion
théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi
théorique donnée.
Le chapitre III concerne les tests d'homogénéité et d'indépendance, qui servent à mettre en
évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple
conduit à la comparaison de deux proportions observées, qui peut être considéré:
- Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades
et non-malades) : on se demande si le facteur de risque est présent dans la même proportion
dans les deux échantillons.
- Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1.
Les tests de comparaison de deux échantillons sont de trois types:
- approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de
l'échantillon est assez grande,
- paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations.
- non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons
sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par
exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui
n'est pas toujours le cas.).
Le chapitre IV donne des tests non paramétriques pour comparer plus de deux échantillons.
2 - Calcul des probabilités et variables aléatoires réelles
Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une
probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles
de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une
tribu
a. Ces événements seront notés A, B, C, D,... .
C. Huber
Probabilités et notions fondamentales
4
Exemple
Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que
maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M,
l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les
événements élémentaires :
(0,0,0)
lorsque aucun des trois symptômes n'est présent,
(1,0,0)
lorsque seul le premier est présent, etc..
(1,1,1)
lorsque les trois symptômes sont présents.
a) Probabilité que A ou B se produisent : (additivité de la probabilité)
Si A et B sont deux événements d'intersection vide , c'est à dire qu'ils ne peuvent pas se
produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la
somme de leurs probabilités respectives :
P(AUB) = P(A)+P(B) .
b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement)
Si A ne se produit pas, c'est que c'est son complémentaire Ac dans E qui se produit :
P(Ac) = 1 - P(A)
c) Probabilité que A se produise sachant que b s'est produit : (probabilité conditionnelle)
La probabilité de A conditionnellement à b est notée comme P(A|B) ou P(A|B) et définie
comme
P(A|B) = P(A∩B) / P(B)
Exemple :
Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes ? Que devient cette
probabilité si on sait que la carte tirée est rouge ? si on sait qu'elle est noire ? si on sait que
c'est une figure ?
d) Probabilité que A et B se produisent ensemble :
Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A∩B, se
produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A|B), on
a
P(A∩B) = P(A|B)P(B) = P(B|A)P(A)
Ces deux égalités sont toujours valables, sans condition.
e) Indépendance de deux événements :
Si A et B sont indépendants , P(A∩B) = P(A) P(B),
P(A|B) = P(A) ,
P(B|A) = P(B) .
Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de
l'indépendance de A et B.
Espérance et variance d'une variable aléatoire réelle :
Si X est une variable aléatoire réelle (v.a.r.) , son espérance, ou moyenne, EX et sa
variance Var(X), sont ainsi définies :
C. Huber
Probabilités et notions fondamentales
5
1)Si X est discrète, telle que P(X = xi) = pi , i = 1, 2, ..,k , son espérance EX et sa variance
Var(X) sont respectivement :
EX = Σ pi xi ,
Var(X) = E [ (X - EX)2] = Σ pi (xi -EX)2 .
Les sommations portent sur tous les indices i = 1,..,k.
L'écart-type σ(X) est la racine positive de la variance σ(X) = √ Var(X) .
2) De même, si X est continue, de densité de probabilité f(x) au point x,
EX = ∫ x f(x) dx , Var(X) = ∫ (x - EX)2 f(x) dx et σ(X) = √ Var(X) .
Propriétés de l'espérance et de la variance :
- L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la
somme des espérances : E(X1+ X2 + ... + Xn) = E X1 + E X2 + ...+ E Xn .
- La variance d'une somme, par contre, n'est en général pas égale à la somme des
variances:
Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y),
où cov(X,Y) vaut , par définition :
cov(X,Y) = E(XY) - EX EY .
Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs
variances car cov(X,Y) = 0 : Var(X+Y) = Var(X) + Var(Y).
Coefficient de corrélation
La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle
dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette
unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer
cette dépendance, on définit le coefficient de corrélation ρ de X et de Y:
ρ = cov(X,Y) / σX σY
3 - Quelques lois de probabilité
A Lois continues
a) Lois normales N (µ, σ2)
Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ2) si sa densité
de probabilité au point x vaut
2
f(x) =
1 exp (- (x - µ) )
2
2π σ
2σ
,
x ∈ IR .
Alors, EX = µ, Var(X) = σ2 , et la variable Ζ = (X- µ) / σ suit la loi normale réduite
N(0,1) de densité au point z :
C. Huber
Probabilités et notions fondamentales
ϕ(z) =
1
e
2π
-
z
2
6
2
,
z ∈ IR .
On note Φ la fonction de répartition correspondante
z
Φ ( z) = P( Z ≤ z) = ∫ ϕ( t ) dt
−∞
Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute
probabilité relative à une variable normale quelconque N (µ, σ2). En effet , si X suit la loi
normale N(µ,σ2)
P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ]
Les valeurs de Φ sont données par une table.
Rappelons de plus que si X et Y sont deux variables normales indépendantes , leur
somme est encore normale, de moyenne la somme des moyennes et variance la somme des
variances:
X et Y indépendantes
L (X) = N(µ, σ2)
⇒
2
L (Y) = N(µ', σ' )
L (X+Y) = N(µ, + µ', σ2 + σ'2 )
Ce résultat se généralise à la somme de n'importe quel nombre de variables normales
indépendantes.
Couple normal
Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si
, pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi
normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que
leur coefficient de corrélation ρ(X,Y) soit nul.
b) Lois exponentielles E (λ)
C. Huber
Probabilités et notions fondamentales
7
La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée
E (λ), si elle admet la loi de densité égale en chaque point x ≥ 0 à :
f(x) = λ e- λx
si x ≥ 0
,
( λ> 0).
= 0
sinon
La fonction de répartition F correspondante au point x s'obtient facilement par intégration
de f entre 0 et x et vaut
F(x) = 1 - e- λx
, si x ≥ 0 ;
= 0
, si x < 0 .
L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ2
En particulier, lorsque λ vaut 1, f(x) = e- x , F(x) = 1 - e- x , EX = 1 et Var(X) =1. On
peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle
unité u' = u / λ, ce qui change X en X' = λ X.
c) Lois gamma Γ(a,λ)
X suit la loi Γ (a , λ ), a > 0 et λ > 0 , si sa densité de probabilité au point x est nulle pour
x < 0 et vaut pour les x positifs :
fa,λ ( x ) =
λa
x a _ 1 e − λx
Γ(a)
x ≥0
où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier
(n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ...
3. 2.1 . Γ (a) s'écrit
∞
-t a-1
e t
dt
Γ(a) =
0
On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout
z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce
que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = ⎟π .
Propriété (Somme de deux variables indépendantes de lois gamma )
Si X et Y sont indépendantes de lois gamma, de même paramètre λ , L (X) = Γ(a , λ)
et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma :
L (X + Y) = Γ (a + b, λ) .
La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée
égale à Γ (a, λ) :
ϕX(t) = E (e-tX) (par définition de la transformée de Laplace)
C. Huber
Probabilités et notions fondamentales
=
=
=
λ
a
Γ(a)
λ
a
.
-1
Γ(a)
λ
∞ a-1 −(λ+t)x
x
e
dx
0
8
∞ a-1
y
0
(λ+t)
−y
e dy
a-1
(λ+t)
.
a
(λ+t)
a
Alors ϕ X+Y (t) = E ( e-t(X + Y)) = E ( e-tX) E ( e-tY) puisque X et Y sont indépendantes,
et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b , qui est la transformée de Laplace de la
loi Γ(a+b, λ) .
d) Lois du chi deux ( χ2 ) à n degrés de liberté
χ2n = Γ(n/2, 1/2) . Donc sa densité de
C'est, par définition la loi Γ(n/2, 1/2) :
probabilité est égale à
1
si x ≥ 0
fn ( x ) = n / 2
x n / 2−1 e − x / 2
2 Γ(n / 2)
Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)]n/2 , soit
ϕ (t) = (2t + 1) - n/2.
Théorème
Soit Z1, Z2, ..., Zn , n variables indépendantes de loi normale N(0,1). Alors la variable
χn2 = Ζ12 + Ζ22 + .... + Zn2
suit la loi du χ2 à n degrés de liberté (d.d.l.) , notée χ2n .
démonstration:
D'après ce qui précède, il suffit de montrer que L (X2) = Γ(1/2 , 1/2) si X est normale
N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 :
2
ϕ X 12 (t) = E ( e–t (X 1 ) ) = (1/
2π )
Moments
C. Huber
e –x
2
(t+1/2)
= (2t + 1)–1/2 .
Probabilités et notions fondamentales
9
On voit sans calcul que E (χ12 ) = 1, puisque cette moyenne est égale à celle de Z12 , c'est à
dire à la variance de Z1 , qui est de moyenne nulle, et de variance 1. De même,
E ( χn2 ) = n .
Pour calculer tous les moments, E( χn2k) , il suffit de dériver la transformée de Laplace
ϕ χ12 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la
démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette
fonction, on voit que ϕ ' (t) = (2t+1)-3/2 = E( χn2 ) et que, de manière générale, la dérivée
d'ordre k vaut
ϕ (k)(t) = 1.3.5..(2k-1) (2t+1) - (k + 1/2) = x2k e-tx f(x2) d( x2)
La valeur au point 0 de cette dérivée donne donc le moment d'ordre k :
ϕ (k)(0) = 1.3.5..(2k-1) E( χ12k)
Par définition de la variance, on a Var(χ12) = E ((χ12)2) - (E (χ12))2 = 3 − 1 = 2. Comme
l'indépendance de Z1 , Z2 ,...., Zn entraîne l'indépendance de leurs carrés et que tous les Zi2
suivent la même loi du χ12 , on a immédiatement
Var (χn2 ) = 2 n .
e) Lois Béta
Définition
On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si
x
1
P(β ≤ x ) = I x (a, b) =
y a −1 (1 − y )b−1 dy
x ∈[0 1]
∫
B(a, b) 0
Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle
[0 ; 1] et sa densité au point x est
1
f ( x ; a, b) =
x a−1 (1 − x )b−1
x ∈[0 1]
B(a, b)
f (x;a,b) =
où
1 x a-1 (1-x) b-1
B(a,b)
0 Š x Š 1
(a+b-1)!
B (a,b) = Γ(a+b) ( =
Γ(a) Γ(b)
(a-1)! (b−1)!
si a et b sont entiers).
On peut prouver que si β suit la loi de f. r. Ix (a,b) alors
C. Huber
Probabilités et notions fondamentales
Eβ =
a
a+ b
Var β =
et
10
ab
2
(a+b) (a+b+1)
Si U et V sont deux variables aléatoires indépendantes, de loi Γ(a,λ) et Γ(b,λ), le rapport
U / (U+V) suit la loi béta β (a,a+b).
f) Loi de Fisher-Snedecor à n1 et n2 degrés de liberté F ( n1 , n2 )
Si U est une variable aléatoire qui suit la loi béta ( n1/+2, n2/2), la variable aléatoire ( n2/ n1)
U suit la loi de Fisher-Snédécor à n1 et n2 degrés de liberté, notée F(n1,n2).
En particulier, si
L (Y1) = χ2(n1)
L (Y2) = χ2(n2)
L ( n2Y1 / n1Y2 ) = F (n1 , n2 )
Y1 et Y2 indépendantes
g) Loi de Student à n degrés de liberté T(n)
Par définition, si
L (X) = N(0,1)
L (Y) = χ2(n )
L (X /
Y
n
) = T(n)
X et Y indépendantes
B
Lois discrètes
a) Loi de Bernoulli b(p) , p ∈ [ 0 1]
C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la
probabilité p et 0 avec la probabilité 1-p notée q :
P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq.
b) Loi binomiale B (n, p) , n ∈ΙΝ , 0 ≤ p ≤ 1
C'est la loi de la somme Sn de n variables aléatoires X1,X2,..,Xn indépendantes et de
même loi de Bernoulli b(p), de paramètre p (0≤p≤1)
1 avec la probabilité p
Xi =
0 avec la probabilité q = 1 - p
Si 1 correspond au "succès" et 0 à l'échec la statistique
Sn = X1 + X2 + .. + Xn
C. Huber
Probabilités et notions fondamentales
11
qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs
entières j de 0 à n. La loi de Sn est donnée par
n!
P (Sn = j ) = pj = ------------ pj qn-j
j! (n- j) !
,
j = 0,1,2,....n .
ESn = np et Var (Sn) = npq
L'espérance et la variance sont obtenues comme sommes des espérances et variances des
Bernoulli. Le nombre des combinaisons de n objets pris j par j , qui vaut n! / j! (n-j)! , est
généralement noté
j
Cn
ou
n
j
c) Loi multinomiale M (n, p1, p2 ,..., pr) , n ∈ΙΝ , pi ≥ 0 , Σ pi =1
Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les
p2 ,...,
pr , lorsqu'on répète n fois l'épreuve de manière
probabilités respectives p1,
indépendante, on obtient r effectifs N1, N2 ,..., Nr , où Ni est le nombre de fois que la
modalité i a été observée. Alors, pour chaque i, la loi de Ni est la loi binomiale de paramètres
n et pi
L (Ni) = B(n,pi)
,
i = 1, 2, ..., r ;
E(Ni) = npi et Var(Ni) = npi qi .
Mais il est clair que deux effectifs Ni et Nj qui correspondent à deux valeurs différentes de
X , i et j , ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est
fixée et vaut n, le nombre total des observations.
La loi de N = (N1, ..., Nr) ne peut donc pas être décrite à partir des seules lois binomiales
B(n,pi) de chacun des Ni. Elle est appelée la loi multinomiale de paramètres (n, p1, p2, ..., pr)
et notée M (n; p1, p2, ..., pr) .
La probabilité de l'événement { N1 = n1, N2 = n2 , ..., Nr = nr} est égale, pourvu que la
somme des ni soit égale à n, à
P (N 1 = n 1 , N 2 = n 2 , ..., N r = n r ) =
n!
n 1! n 2! ... n r!
p
n1 n2
nr
p ... p
1
2
r
Remarque
Les variables (Ni -npi) / √ npiqi sont centrées réduites, et, lorsque n est grand (npi et nqi
au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi
deux.
d) Loi de Poisson ∏ (λ) , λ > 0
C. Huber
Probabilités et notions fondamentales
12
Définition
Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes
les valeurs entières, 0 compris, la probabilité pk pour qu'elle prenne la valeur k étant définie
par
λk
pk = P (X = k) = e - λ __
k = 0,1,2,...
λ
k!
Alors
paramètre > 0
EY = Var(Y) = λ
On rappelle que 0! = 1 par définition.
Propriété (Somme de variables de Poisson indépendantes)
La somme de deux variables de Poisson indépendantes est encore une variable de Poisson
de paramètre la somme des paramètres :
X et Y indépendantes
L (X) = π (λ)
L (X+Y) = π (λ+µ)
⇒
L (Y) = π (µ)
Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est
encore une variable de Poisson, de paramètre la somme des paramètres.
4 Approximations
a) Approximation normale de la loi binomiale
Une variable binomiale Sn, de loi B(n,p) a pour espérance np et pour variance npq.
Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de
la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n
peut il être considéré comme grand ? Cela dépend de p et q. Plus précisément, on pourra
remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les
deux supérieurs à 5 :
B(n, p) ≅ N(np,npq)
dès que np ≥ 5 et nq ≥ 5
ce qui s'écrit aussi
Sn ≅ np +
npq Z
où Z est normale réduite N(0,1).
b) Approximation normale d'une somme de variables indépendantes
On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais
des variables indépendantes de même loi et d'espérance µ et variance σ2 :
Sn = X1 + X2 + .. + Xn
C. Huber
Probabilités et notions fondamentales
13
Alors E( Sn ) = n µ , Var ( Sn ) = n σ2 , et la loi de Sn , qui n'est pas connue puisqu'elle
dépend de la loi commune des Xi , qui n'a pas été précisée, est, lorsque n est grand, proche de
la loi normale de même moyenne et de même variance qu'elle :
L (Sn ) ≅ N( n µ , n σ2 )
Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n
égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut
s'écrire aussi
Si
Sn = X1 + X2 + .. + Xn , indépendantes,
de même loi continue,
E(Xi) = µ , Var(Xi) = σ2,
et n ≥ 30 ,
alors
L ( (Sn - n µ) /
nσ 2 ) ≅
Ν(0,1)
ce qui s'écrit aussi
Sn ≅ n µ +
nσ 2 Z
où L (Z) = N(0,1).
c) Approximation de Poisson de la binomiale
Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n
est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un évènement rare, par
exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np.
Plus précisément :
on a l'approximation de Poisson suivante pour la loi binômiale :
pourvu que
p ≤ 0,1
B(n,p)
et
≅
1 ≤ np < 10
Π (np)
d) Approximation normale du χn2
Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables
correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la
somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable
du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de
liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi
2 à 1 d.d.l. . Donc, d'après le théorème de la limite centrale, si n est assez grand
P( χn2 ≤ x ) ≅ P ( n + 2 n Ζ ≤ x ) = Φ ( (x - n) /
C. Huber
2n ) .
Probabilités et notions fondamentales
14
5 - Principe des tests
Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non
une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une
nouvelle technique constitue ou non un progrès par rapport à la technique classique.
Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène.
Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : Xi
désignera le résultat sur le ième produit. X peut par exemple valoir 1 en cas de réussite, 0 en
cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès inconnue - de cette nouvelle technique. Mais Xi peut aussi bien être la durée de vie du ième
produit, et c'est alors une variable continue.
A partir des observations, on construit une valeur numérique qui est la réalisation d'une
variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y =
ϕ(X1, ..., Xn) . Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue
lorsque l'hypothèse qui nous intéresse est réalisée. Appelons Ho cette hypothèse. Alors, si la
valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en
général, si y est trop grand ou trop petit), on rejette Ho comme ayant conduit à une
observation trop peu probable, voire invraisemblable.
Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux
de succès de 50%, sous l'hypothèse Ho qu'il n'y a pas d'amélioration, c'est à dire que la
nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès
observé
Po = ϕ(X1, ..., Xn) = ( X1+ ...+Xn) / n
C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre
total des observations.
En fait, on aimerait rejeter cette hypothèse Ho au profit de l'hypothèse H1 selon laquelle le
taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en
présence des deux hypothèses
Ho : p = 0,5
H1 : p > 0,5
Si la proportion observée po est trop éloignée de 0,5 , et plutôt trop grande, on rejettera
Ho au profit de H1.
C'est le type de problème intitulé "Comparaison d'une proportion observée, ici po , à une
proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour
qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable
de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y =
ϕ(X1, ..., Xn) sous Ho , sauf à employer l'une des approximations qui figurent au paragraphe
précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique.
On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de
l'hypothèse nulle Ho a été choisie à droite : ce choix est destiné à rendre aussi grande que
possible la puissance du test , c'est à dire la probabilité d'accepter H1 lorsqu'elle est vraie.
C. Huber
Probabilités et notions fondamentales
15
Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance
pour un niveau donné a : c'est de rejeter Ho lorsque le rapport des probabilités des
Ho et sous H1 est plus petit qu'une valeur donnée . Cela est une
observations sous
conséquence du
lemme de Neyman et Pearson:
Le test de Ho (P = P0) contre H1 (P = P1) qui a pour zone de rejet de Ho :
{ x : [Po(X=x) / P1(X=x) ≤ h} est le plus puissant parmi les tests qui ont le même niveau
que lui.
Il suffira donc de choisir la valeur du nombre h de telle sorte que
Po{ x : [Po(X=x) / P1(X=x) ≤ h} = α
pour obtenir le test de niveau α le plus puissant.
On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci
apparent d'optimisation de la puissance, sont de ce type.
6 Principe de l'estimation
L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle
technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors :
X 1+X 2 +...+X n
= p o proportion observée
n
Mais deux points ont besoin d'être précisés dès qu'on veut généraliser :
p=
1) Quelle est la précision d'une telle estimation ? on tombe alors sur les intervalles de
confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus,
sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un
intervalle qui a une forte probabilité ( en général 95 %) de contenir p.
Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la
rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent
étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent
l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne :
L (p) ≈ N( p , σ2 )
Alors
[ p - 2σ ; p + 2σ ]
est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de
confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui
vaut en fait , non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est
pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de
l'estimateur est Var(Po) = p0q0 / n, ce qui donne pour intervalle de confiance à 95 % :
[ po - 2
pq
n
;
po + 2
C. Huber
pq
n
] .
Probabilités et notions fondamentales
16
2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à
estimer ? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité
d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer:
Pθ (X1 = x1, X2 = x2, ..., Xn = xn) = V(θ) .
La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ,
et non comme une fonction des observations x1, x2, ..., xn . On choisit comme estimateur
de θ la valeur
θ qui maximise V(θ) : V(θ) ≥ V(θ) pour tout θ
Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très
souvent réalisées, lorsque le nombre des observations est assez grand.
Exemple 1 : durée de vie exponentielle
On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de
paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs
suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ ?
Exemple 2 : palmier à huile
Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier
apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de
palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et
d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la
probabilité θ pour un palmier d'être malade ? On doit, pour être en mesure de faire cette
estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau.
Exemple 3 : durée de vie uniforme
La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi
uniforme sur un intervalle de temps [ 0 ; θ ] . θ est inconnu et on veut l'estimer après avoir
observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4,
10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ ?
C. Huber
17
Tests d'ajustement
II
TESTS D'AJUSTEMENT
1 - Introduction
Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type :
"Si la loi de la variable X est normale ...", ou "Supposons que la loi de X soit de Bernoulli
de paramètre p = 1/2, ..." ou en employant un langage plus courant "Supposons que deux
structures différentes soient également réparties chez les bactéries". Comment vérifier
l'exactitude de ces hypothèses ?
Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation
(fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à
partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable
aléatoire X, si cette variable obéit bien à la loi spécifiée.
Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit
au début du paragraphe suivant.
2 - Test d'ajustement du chi2 pour une loi spécifiée
a. Cas d'une variable discrète :
X a un nombre fini r de modalités, notées 1, 2, ..., r et il s'agit de tester l'hypothèse
Ho : P(X = 1) = p1 , P(X = 2) = p2 , ..., P(X = r) = pr ,
où p1 , p2, ..., pr sont des probabilités données à l'avance. Alors on considère la
statistique
2
r
(N i - n p i)
2
E = ∑
n pi
i =1
qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés
aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie.
On peut démontrer que, si Ho est vraie, et pourvu que tous les npi soient assez grands
(supérieurs à 5), E2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté
(notés ddl).
C. Huber
18
Tests d'ajustement
Exemple 4 : dosage
Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe
entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3
modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 %
l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur
les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ?
b. Test d'ajustement du chi 2 pour une variable continue
Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0,
1), on peut se ramener au problème précédent en discrétisant la variable :
c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles
de X formée de r intervalles successifs sans point commun :
] - ∞, a1], ]a1 , a2] ,...,
] ar-1
+∞ [
Si l'on a observé un n-échantillon de valeurs de X, x1,..., xn, on résume ces observations
en
(N1, ..., Nr)
où N1 désigne le nombre des xi qui sont inférieurs à a1, N2 le nombre de ceux qui
tombent entre a1 (non compris) et a2 (compris) etc...
Sous l'hypothèse
H0 : la loi de X est la loi N (0,1)
les probabilités pj pour que X tombe dans chacun des r intervalles Ij = ]aj-1
peuvent être calculées :
aj
pj =
a j -1
aj ]
2
1
z
exp {- } dz
2
2π
Et on voit donc comment se ramener au problème du paragraphe précédent pour toute
loi continue dont la densité est complètement spécifiée.
Exemple 5 : Taux de cholestérol
On veut savoir si le taux de cholestérol dans une sous population déterminée de
patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du
taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour
cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants :
Taux de cholestérol
] 90
110] 01
] 110
130]
] 130
150]
] 150
170]
] 170
190]
Effectif
]190
02
18
26
16
Taux de cholestérol
210]
17
]210
230] 12
]230
250]
]250
270]
]270
290]
]290
310]
C. Huber
Effectif
4
2
1
1
19
Tests d'ajustement
On devra calculer les probabilités attribuées à chacun des intervalles par la loi
N (200, 36) :
aj
2
1
(z - 200)
} dz
pj =
exp { 72
2π 6
a j-1
avec ao = - ∞ , a1 = 110, a2 =130,..., a11 = + ∞ , ou bien les chercher sur une table
donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet pj peut aussi
s'écrire
pj = F(aj) - F(aj - 1) = Φ ( (aj - 200) / 6) - Φ ( (aj-1 - 200) / 6)
On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions
de l'approximation souhaitée, c'est-à-dire npj supérieur à 5 pour chacun des pj . Alors la
variable d'écart vaut :
r (N - n p ) 2
2
i
i
E = Σ
n
p
i
i =1
et, sous l'hypothèse nulle Ho , le taux de cholestérol suit dans cette sous-population la loi
N (200, 36), E2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.Si la valeur
observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si :
P(χ2r-1 ≥ e2 ) ≤ 0,05
et si l'on s'est fixé le seuil de 5%, on rejettera Ho.
On pourra faire le calcul des pj, du nombre de classes qui restent après regroupement et
finalement conclure, au seuil de 5%.
3 - Tests d'ajustement du chi 2 avec estimation de paramètres
Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait
réaliser l'ajustement étaient complètement spécifiées.
En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à
réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il
faut d'abord estimer. Par exemple, lorsqu'on se demande si une variable est normale, c'est
en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors
estimer µ et σ2 respectivement par m et s2 , pour pouvoir effectuer un ajustement
sur la loi N (m ; s2). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont
pas toujours complètement spécifiés, comme l'illustre l'exemple suivant.
C. Huber
20
Tests d'ajustement
Exemple 2 : suite
Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet
d'un pied à son pied jumeau.
L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas.
Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable
aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a :
P
P
(X =2)
(X = 1)
=
=
P
(X = 0)
=
θ2
2 θ (1 − θ)
(1 - θ)2
=
=
p1
p2
=
p3
Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N1, N2, N3)
où
N1 est le nombre de couples dont les deux éléments sont malades ,
N2 le nombre de couples comportant un seul pied malade,
N3 le nombre de couples dont aucun pied n'est malade,
est une loi multinomiale de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ).
Préalablement à l'ajustement, il faudra estimer θ .
Nombre de pieds malades
dans le couple
Nombre de couples
2
1
0
73
185
242
Avec les notations précédemment introduites :
N1 = 73 , N2 =185 , N3 = 242
p1 = θ2 , p2 = 2 θ (1 − θ) , p3 = (1 - θ)2 .
La vraisemblance s'obtient en remplaçant dans :
P (N1 = n1, N2 = n2, N3 = n3)
n1 par 73, n2 par 185, n3 par 242, ce qui donne une fonction de θ seul. Calculons donc
Pθ (N1 = n1, N2 = n2, N3 = n3), c'est-à-dire, de manière générale, la loi multinomiale
de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ) :
P( N 1 = n 1 , N 2 = n 2 , N 3 = n 3 ) =
n n n
n!
p 1 1 p 2 2p 3 3
n 1! n 2!n 3!
On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r
quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de
l'échantillon :
2x73
185
2 x 242
500!
P( N 1 = 73 , N 2 = 185 , N 3 = 242 ) =
θ
[2θ(1 -θ)]
(1 − θ)
73! 185!242!
C. Huber
21
Tests d'ajustement
L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction
de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la
vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance
puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance
et L(θ) son logarithme. Ici L(θ) vaut :
L(θ) = (146 + 185) log θ + (185 + 484) log (1 - θ) + C
où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs
observés). On obtient le maximum de L en dérivant L par rapport à θ :
L'( θ ) = 331 / θ - 669 / (1 - θ) = 0
ce qui donne
θ=
331
1 000
= 0,331
valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0 .
Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète
par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r
valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit
P (X = 1) = p1
et de manière générale
P (X = i ) = pi
pour i variant de 1 à r. Les valeurs de p1, ... , pr sont des fonctions connues d'un ou
plusieurs paramètres θ 1, ... , θ k qui sont inconnus et qu'on remplace par leurs
estimateurs du maximum de vraisemblance :
n1
n2
nk
n!
p1( θ 1 , θ 2 ,..., θ k ) p2( θ 1 , θ 2 ,..., θ k ) ...pk( θ 1 , θ 2 ,..., θ k )
V( θ 1 , θ 2 ,..., θ k ) =
n1! n2!n3!
est la vraisemblance de l'échantillon si l'on a observé n1 fois la valeur 1 pour X, n2 fois la
valeur 2, etc...
Et les valeurs
θ 1 , θ 2 ,..., θ k
sont celles qui rendent maximum cette fonction. On peut , si V est différentiable obtenir
ces valeurs par dérivation. Il en résulte des estimateurs
p 1 , p 2 ,..., p r
Pour tester
H0 : la loi de X a pour paramètre θ 1, ... , θ k
On calcule la variable d'écart E2 entre les effectifs observés ni dans chacune des classes
et leurs espérances sous Ho :
C. Huber
22
Tests d'ajustement
2
E =
r
(N i - n p i)
i =1
n pi
∑
2
Alors, sous Ho, E2 suit une loi proche de celle du chi-2
pourvu que n soit assez grand pour que
n pi ≥ 5
a r-k-1 degrés de liberté,
pour i = 1, 2, ... , r
Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce
résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de
vraisemblance.
Exemple 2 : palmier à huile (suite)
Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ , et les valeurs
correspondantes estimées de p1 , p2 , p3 sont : 0,1096 , 0,4422 et 0,4475
On vérifie que
n pi ≥ 5
pour i = 1, 2, 3
La variable d'écart :
2
E =
r
Σ
(N i - n p i)
2
= 12,55
n pi
suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous
l'hypothèse nulle. Or
P (χ12 ≥ 12,55 ) < 0,001
On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification
inférieur à 1 o/oo .
i =1
Remarque 1
Comme il est, dans certains cas, comme par exemple celui où la loi de X était
continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la
méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est
démontrée la convergence vers une loi du chi 2 de la variable d'écart E2, on se contente
quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres.
Exemple
Pour ajuster des données à une loi normale d'espérance et de variance non précisées,
on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques
2
sn
x et
n-1
On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et
en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le
taux de cholestérol.
Remarque 2
En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du
C. Huber
(Chi-
23
Tests d'ajustement
deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment
étudiée. La loi de E2, sous chacune de ces lois pose un problème différent qu'il faut
résoudre en coup par coup.
3 - Test de Kolmogorov-Smirnov :
On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r
classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E2, ne tient pas
compte d'un ordre éventuel des r classes.
Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de
Kolmogorov- Smirnov . La statistique sur laquelle est fondé ce test est
D = sup ⏐ Fn- F ⏐ .
Sup ⏐ Fn- F ⏐ signifie : sup t ∈R ⏐ Fn (t) - F (t) ⏐ , c'est-à-dire le maximum de la
valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on
veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative
observée) :
n
1
F n(t) =
1 ]- ∞ t] (x i)
n iΣ
=1
c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par
l'échantillon (x1, ... , xn).
Sous l'hypothèse nulle Ho, selon laquelle X a effectivement pour fonction de
répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est
tabulée (voir la table de D jointe à la fin de ce cours) pour n variant de 1 à 35 (n est
appelé N dans la table).
Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D ⎟n vers une
loi indépendante de n, quand n croit :
P ( sup t
n ⎮F n (t) - F (t)⎮ < α ) → 1 - 2
∞
Σ
(- 1)
k+1
2 2
e
-2k α
k=1
pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que
, en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les
valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une
seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la
division par ⎟n, où n est le nombre des observations.
Exemple 7 : radiographies
Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus
foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins
observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient
différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages
On appelle Ho cette hypothèse, qui dit que les préférences des médecins des
médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément
réparties sur les cinq tirages.
C. Huber
24
Tests d'ajustement
Rang de la radio choisie
(1 est la plus foncée)
1
0
2
1
3
0
4
5
5
4
F : fonction de répartition
théorique sous H0
1/5
2/5
3/5
4/5
5/5
Fn : fonction de répartition
empirique
0/10
1/10
1/10
6/10
10/10
Fn - F
2/10
3/10
5/10
2/10 0
Nombre de sujets choisissant
ce rang
Donc D = 5/10 = 0, 500.
Pour n = 10, la table de la loi de D, sous Ho, nous dit que :
PHo (D ≥ 0, 500) < 0, 01
Le test est donc significatif, on rejette Ho, avec un degré de signification inférieur à 1%.
Remarque :
Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 :
1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de
regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles.
2) Lorsque le nombre d'observations est petit, le test du χ2 ne peut pas s'appliquer du
tout. Si l'on essaie d'appliquer le test du χ2 à l'exemple ci-dessus, on doit combiner
plusieurs catégories adjacentes :
Fréquence de choix
Foncé (1,2)
1
Clair (3,4,5)
9
soit supérieur à 3,75 tombe entre
Alors χ12 = 3,75. La probabilité que χ12
0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%.Ce test est moins
puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.
C. Huber
Indépendance
25
III Mise en evidence de liaisons :
Tests d'indépendance.
La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup
d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme
objectif la prévention des maladies. Les techniques employées sont différentes suivant que les
variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type
de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent
lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est
continue et les deux le sont.
Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I.
Partant de là, nous allons introduire d'autres méthodes, plus générales.
1 - Les deux caractères sont discrets :
a - Deux caractères à deux classes :
Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux
valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications
professionnelles dépend des conditions de vie : est elle la même pour la population rurale et
pour la population citadine ?
On dispose des observations suivantes :
Intoxication
Milieu
Citadins
Ruraux
sensibles
123
145
non sensibles taille d'échantillon
153
150
276
295
portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre
part parmi les habitants de la campagne.
Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux
proportions observées" qui sont ici :
- La proportion observée d'individus sensibles parmi les citadins, soit po = 123/276 = 0,45
- La proportion observée d'individus sensibles parmi les ruraux, soit p'o = 145/295 = 0,49
Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont
sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse Ho (p =
p'), la contre- hypothèse étant H1 (p ≠ p').
Sous l'hypothèse nulle Ho, la variable aléatoire
C. Huber
Indépendance
E =
26
P' o - P o
P t Qt (
1
1
+ )
n1 n2
où Po est la proportion de sensibles pour un échantillon de n1citadins
P'o est la proportion de sensibles dans un échantillon de n2 ruraux
Pt est la proportion de sensibles dans l'échantillon total de taille n1+ n2
Qt = 1 - Pt
a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1),
et dont la table figure à la fin de ce cours : en effet n1po, n1qo, n2 p'o, n2 q'o sont tous
supérieurs à 5.
On notera, dans toute la suite Z une variable de loi N(0,1).
La valeur observée de E, dans notre exemple est :
e =
p' o - p o
pt qt (
1
1
+ )
n1 n2
=
0,04
0,49 - 0,45
= 1
=
0,04
1
1
)
+
0,47.0,53 (
276 295
Et la probabilité pour que, sous l'hypothèse Ho, on ait observé une valeur de E , qu'on
appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue,
vaut donc à peu près
P (|Ε| ≥ | e |) ≈ P ( |Ε| ≥ 1) ≈ 0,32
Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on
conserverait Ho pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est
significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal
à 5 %.
On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la
sensibilisation aux intoxications professionnelles.
Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on
l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire
|Ε| ≥ |e|
ou
E2 ≥ e2
De même que lors de l'étude des tests d'ajustement, on peut montrer que E2 s'écrit aussi, en
notant :
N1
N2
N3
N4
Pt
Qt
l'effectif de ceux qui sont sensibles parmi les citadins
l'effectif de ceux qui ne sont pas sensibles parmi les citadins
l'effectif de ceux qui sont sensibles parmi les ruraux
l'effectif de ceux qui ne sont pas sensibles parmi les ruraux
la proportion des sensibles sur le total
la proportion des insensibles sur le total Qt = 1 - Pt
C. Huber
Indépendance
27
2
2
2
(N 3 - n 2P t )
(N 4 - n 2Qt )
(N 2 - n 1Qt )
(N 1 - n 1P t )
+
+
+
E =
n 2P t
n 2Qt
n 1Qt
n 1P t
2
2
Sous l'hypothèse nulle Ho d'indépendance des deux caractères, qui se traduit par l'égalité
des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe
comme si l'on avait un seul échantillon de taille n1+n2 et Pt constitue alors un bon estimateur
de cette proportion.
Alors E2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des
effectifs à sa moyenne estimée.
On appelle quelquefois les Ni les effectifs observés et les niPt et niQt les effectifs
"calculés" ou "théoriques".
Sous l'hypothèse Ho, pourvu que les dénominateurs niPt et niQt soient tous supérieurs ou
égaux à 5, E est approximativement normale N(0, 1), donc E2 est approximativement χ21 .On
rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ2r) la
loi de la variable
S = Z21+Z22+... +Z2r
où les Zi sont indépendantes et toutes de loi N(0, 1)).
Dans la table des lois du chi deux, on lit donc que
P(E2 >e2) = P(E2 > 1) ≈ 0, 32.
On constate donc que le test fondé sur E2 est identique à celui fondé sur E , mais la forme
E2 permet une généralisation immédiate en cas où
A a r modalités,
B a k modalités .
b - Deux caractères à r et k classes :
Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination
contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle
apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère
(L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la
vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).
Les résultats d'une observation portant sur n = 1574 malades sont les suivants :
C. Huber
Indépendance
Durée X écoulée depuis
la vaccination
A
28
B
C
Total
42
114
301
457
230
347
510
1087
273
467
834
1574
Degré de gravité Y
de la maladie
G
M
L
Total
1
6
23
30
Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses
nulle et alternative :
Ho : X et Y sont indépendantes,
H1 : X et Y sont liées .
De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k
classes, notées respectivement i = 1,..., r et j = 1,..., k et nij l'effectif observé, dans le tableau
croisé, des individus pour lesquels X vaut i et Y vaut j. On note n..j le nombre total de ceux
pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et ni. le nombre total de ceux
pour lesquels X vaut i , et qui figure à droite de la ligne i.
Sous l'hypothèse Ho d'indépendance de X et Y :
P (X = i, Y = j) =
soit
pij
P (X = i) . P (Y = j)
= pi . p.j
Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du
tableau des observations, sont
n
n
n
p ij = ij , p i. = i. , p .j = .j
n
n
n
Si Ho est vraie les écarts
p ij - p i. . p .j
ne doivent être dus qu'aux fluctuations d'échantillonnage,
On peut démontrer que la variable
(n ij - n i.p .j)
E =
∑
n i.p .j
i = 1, ..,r ; j = 1, ..,k
2
2
suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les
dénominateurs ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs
classes).
Revenant à l'exemple considéré, r = k = 3 et la variable E2, qui vaut e = 61,4, suit , sous
C. Huber
Indépendance
29
l'hypothèse Ho, une loi du χ2 à (r -1) (k - 1) = 4 degrés de liberté.
Donc
PHo (E2 > 61,4) < 10-3
d'après la table, le test est donc significatif avec un très bon degré de signification (10-3): on
rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la
vaccination.
2 - Cas d'un caractère continu et d'un caractère discret à deux classes
On considère qu'il y a une liaison entre un caractère continu Y et un caractère discret X
à deux classes notées, par commodité 0 et 1, dès que la loi de Y n'est pas la même lorsque X
vaut 0 et lorsque X vaut 1.
Lorsqu'on veut mettre en évidence une telle liaison, on fait un test sur deux groupes
d'individus comparables à tous points de vue, sauf en ce qui concerne la valeur de X qui vaut
0 dans l'un des deux groupes et 1 dans l'autre.
a - Test de comparaison de moyennes :
Lorsque les deux lois L (Y | X = 0) et L (Y | X = 1) sont différentes, cela peut
provenir par exemple d'une différence entre les deux espérances :
Appelons Y' la variable lorsque X = 1 et Y lorsque X = 0.
On teste alors :
Ho : EY'
=
EY
≠
EY
H1 : EY'
C'est le test, bilatéral, d'égalité des moyennes, fondé sur l'écart réduit (souvent appelé ε, mais
ici noté E) entre les moyennes observées pour Y et pour Y' :
E=
Y' - Y
2
2
S'
S
+
n'
n
Si l'on choisit pour risque d'erreur de première espèce α , la zone de rejet de Ho ,donc
de l'hypothèse que X et Y sont indépendants, correspond à la région :
{ |E| > h }
où h est choisi tel que :
PHo { |E| > h}= α .
a.1 - Cas des grands échantillons (supérieurs à 30) :
C. Huber
Indépendance
30
Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi,
par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous
Ho, est proche de la loi normale N (0,1).C'est-à-dire que si Z est une variable normale N (0,1),
de densité de probabilité qui vaut par conséquent
2
1
z
exp ( - )
2
2π
f(z) =
on a
P ( ( E ) ≤ h ) ≈ P ( (Z ) ≤ h ) =
h
1
−h
2π
∫
exp(−
z2
) dz
2
Exemple
Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme
cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades
traités par ce médicament :
au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe
on administre le médicament. Les moyennes et variance estimées sur
chacun des groupes sont
my = 80
s2y = 5
pour le rythme cardiaque Y du groupe témoin,
my' = 81
s2y'= 3
pour le rythme cardiaque Y'du groupe traité .
EY) qui se fonde sur l'écart réduit E
Le test bilatéral de Ho (EY' = EY) contre H1 (EY'
défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification
compris entre 1% et 2 %.
a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student ;
Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut
plus obtenir la loi de E sous H0 grâce à l'approximation normale. Cependant, si l'on sait (ou si
l'on peut s'autoriser à supposer) que la loi de Y et celle de Y' sont toutes les deux normales et
de même variance, la variable :
E' =
Y' - Y
2
Sy'
2
n'
+ n Sy
n + n' - 2
1 + 1
n'
n
suit la loi de Student à n + n' - 2 degrés de liberté.
Définition de la loi de Student à n ddl :
Si X et Y sont deux variables aléatoires indépendantes, X ayant la loi normale N(0, 1) et
Y la loi de Chi deux à n degrés de liberté. Alors, par définition, la variable aléatoire
X
n
T =
Y
C. Huber
Indépendance
31
suit la loi de Student à n degrés de liberté dont la densité gn (t) au point t vaut
2
g n(t) = c n (1 +
t
)
n
-
n+1
2
(où cn est le coefficient positif qui assure que ∨ gn(t) dt = 1 ).
Exemple : dosage de la transferrine
Pour évaluer la valeur diagnostique du dosage de la transferrine dans les hépatites
alcooliques, deux groupes de sujets ont été étudiés (Nouvelle Presse Médicale (1974))
Un premier groupe de 15 sujets normaux, indemnes de toute lésion hépatique, a donné les
résultats suivants :
- moyenne des dosages 1,9 g|l
- écart type de l'échantillon 0,2 g|l
Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé
les résultats suivants :
- moyenne des dosages 1,3 g|l
- écart type de l'échantillon 0,2 g|l.
En appelant Y la variable qui désigne le dosage de la transferrine chez les sujets
normaux et Y' celle qui désigne la même variable chez les sujets affectés d'une hépatite
alcoolique chronique, on veut tester
Ho : EY' = EY
H1 : EY' < EY
Comme on a affaire à de petits échantillons (n = 15 et n' =14), on va supposer que Y et
Y' sont deux variables normales de même variance, ce qui est raisonnable d'une part parce que
beaucoup de dosages biologiques suivent une loi normale et d'autre part parce qu'un test
d'égalité des variances aurait permis de conclure à l'égalité de celles-ci.
Alors
Y' - Y
E' =
2
2
n' Sy' + n Sy 1
+ 1
n + n' - 2
n'
n
qui vaut ici -7,79, suit sous Ho une loi de Student
à n + n' - 2 = 27 degrés de liberté. C'est-à-dire que
P (E' < -7,79) = P (T27 < - 7,79) < 0,001
Le test est donc significatif, avec un très bon degré de signification. On pourra donc utiliser
un taux de transferrine assez bas comme un symptôme possible d'une hépatite alcoolique
chronique.
Cependant, on voit bien quelles sont les limites de cette première méthode
pour traiter le cas des petits échantillons :
d'une part il n'est pas toujours possible de faire l'hypothèse de normalité et d'égalité des
C. Huber
Indépendance
32
variances des variables de base, pour pouvoir fonder un test sur la variable E' de loi de
Student sous Ho.
D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité
dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme
cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les
espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types
de différences peuvent intervenir, à moyennes égales ou non.
b. Les tests non paramétriques :
Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on
peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des
variables de base.
Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification
a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2
paramètres pour la loi normale, N (µ, σ2), la moyenne µ et l'écart type σ ,1 pour la loi de
Poisson etc.) :
- le test de la médiane
- le test de Wilcoxon
- le test de Kolmogorov-Smirnov;
Nous illustrerons chacun de ces trois tests sur un même exemple :
Exemple :
Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut
prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades
comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5
autres seront des témoins non traités, mais à qui on administre un placebo.Les résultats
concernant la durée de survie exprimée en années sont les suivants :
Traités
(T)
Non Traités (NT)
6,5
6,7
4,2
0,4
17,8
2,9
7,9
1,2
13,2
5,6
Pour chacun des trois tests, la première opération à effectuer est d'ordonner les valeurs
obtenues, en les considérant dans leur ensemble :
En effet, sous l'hypothèse nulle
Ho : L (S | T ) = L (S | NT )
qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités
(NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles
respectives n et n', mais un seul grand échantillon de taille n + n'.
On obtient ainsi la suite :
Durée de survie
0,4
1,2
2,9
4,2
5,6
C. Huber
6,5
6,7
7,9
13,2 17,8
Indépendance
Rang
1
2
Traitement
3
4
5
T
33
6
7
T
8
9
10
T
T
T
b.1 Test de la médiane :
Rappelons la définition de la médiane d'une loi ou d'une variable.
Définition de la médiane :
Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) =
P(X ≤ x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que :
m = ½[ inf { x : F(x) ≥ 0,5) + sup { x : F(x) ≥ 0,5)
La médiane est donc en gros une valeur m telle que :
P (X<m) = P (X>m) = 1/2 .
C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En
particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de
l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa
gauche qu'à sa droite. Ici
m = 6,05
Remarque : Si F est continue, la médiane M est unique et égale à x où F(x) = 0.5. La
fonction de répartition empirique est toujours discrète. Aussi on définit en général la médiane
m de l'échantillon par
m = x(n+1)/2 si n est impair et (x(n/2) + x(n/2+1))/2
si n est pair où les x(i) sont les valeurs ordonnées de l'échantillon.
On remplace alors les résultats observés par le résumé suivant :
groupes
Non traités
Traités
Totaux
Effectifs
Nombre des patients
dont la durée de survie est
supérieure à la médiane
1
4
5
Nombre des patients
dont la durée de survie est
inférieure à la médiane (≤)
4
1
5
Totaux
5
5
10
C. Huber
Indépendance
34
Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à
la médiane.
De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux
catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane
générale observée :
Groupe I
X > M (médiane générale)
X≤M
Totaux
A
B
A+B=n
Groupe II
C
D
C + D = n'
Totaux
A+C
B+D
n + n'
A+C représente (à une unité près) la moitié de l'effectif global n + n'.
Sous l'hypothèse nulle, tout se passe comme si d'une urne contenant n + n' boules dont n de
type I et n' de type II,on tirait au hasard (A + C) boules.
Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules
parmi les n + n' a la même probabilité de sortir. Comme il y a en tout
n + n'
A+ C
telles combinaisons dont
n
n'
x
A
C
contiennent exactement A boules du type I et C du type II. Donc :
n
n'
.
A
C
P(A,C) =
n+n'
A+C
qui s'écrit aussi en tenant compte de ce que n = A + B et n' = C + D :
(A+B)! (B+D)! (A+C)! (C+D)!
P' A,C) =
(n+n' )! A! B! C! D!
Rappel :
k
n
, notée aussi Cn, est le nombre des combinaisons de n objets pris k par k,
k
n!
et vaut
.
k! (n-k)!
où n! , appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2)...3.2.1 .
Cette loi tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des
deux groupes :
voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table
correspond à un test unilatéral de l'hypothèse H0 d'indépendance.
Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que
D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette
pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie.
on rappelle que la quantité
C. Huber
Indépendance
35
Remarques
1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de
puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup
d'information en remplaçant les données initiales sur la durée de survie par le tableau des
effectifs inférieurs et supérieurs à la médiane globale.
La variable quantitative continue qu'était la durée de survie a été transformée en une
variable à deux classes.
2) Le test finalement employé sur le tableau des effectifs A, B, C, D est un test
d'indépendance entre deux caractères à deux classes :
Traités, non traités
Survie à plus de 6 ans, et à moins de 6 ans
Le test correspondant est appelé test de Fisher, d'où l'intitulé de la table I
3) Lorsque les effectifs de chacun des deux groupes dépassent 15, on peut faire un test
du χ2 . D'autre part, si l'on ne dispose pas de la table I, ou si l'un des deux groupes
seulement a un effectif supérieur à 15, on peut calculer ldirectement e degré de signification
du test à partir de la formule qui donne P (A, C).
b.2 Test de Wilcoxon pour deux échantillons
Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales , est
plus puissant que le précédent. La statistique considérée est la somme W des rangs des
valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par
ordre croissant.
Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités
on obtient :
W = 4 + 6 + 8 + 9 + 10 = 37 .
Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse Ho de
non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2, ...,
10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5
premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont
équiprobables et donc de probabilité 1 / 10! . Mais deux permutations telles que les 5
premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux
individustraités, on ne les distinguera donc pas. Comme il y a (5!)2 telles permutations, on
obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle
vaut
5! 5!
10!
Remarquons qu'elle n'est pas toujpurs égale à la probabilité pour queW soit égale à une
certaine valeur. En effet, les deux répartitions distinctes suivantes :
R1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins
R2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins
donnent la même valeur à W : 37.
On décidera de rejeter Ho si W est trop grand ou trop petit . On peut décider de rejeter Ho si
P (W ≥ 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi
C. Huber
Indépendance
36
comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien
l'information contenue dans les données).
Pour calculer P (W ≥ 37) il faut déterminer les répartitions R telles que W ≥ 37. Leur nombre,
multiplié par (5!)2 / 10! donnera la probabilité cherchée :
R = (6, 7, 8, 9, 10)Traités
R = (5, 7, 8, 9, 10)T
R = (5, 6, 8, 9, 10)T
R = (4, 7, 8, 9, 10)T
R = (5, 6, 7, 9, 10)T
R = (4, 6, 8, 9, 10)T
R = (3, 7, 8, 9, 10)T
W = 40
W = 39
W = 38
W = 38
W = 37
W = 37
W = 37
Donc P (W ≥ 37) = 7.(5!)2 / 10! ≅ 0,026 .
Au seuil de 5%, on rejette donc Ho et on conclut que le traitement est efficace.
Le test précédent, appelé test de Wilcoxon, est beaucoup plus sensible que le test que nous
avions employé avant et dont le nom est test de Fisher ou d'Irwin-Fisher. Ces deux procédures
de test sont non-paramétriques puisqu'aucune hypothèse n'a été faite sur la forme de la loi de
la variable étudiée.
Nous avons procédé ci-dessus à un calcul direct. Cependant, on dispose de tables (p )
qui donnent les probabilités relatives à W pour les valeurs n1 et n2 des deux tailles
d'échantillons inférieures ou égales à 6. Ces tables sont faites pour la statistique U de MannWhitney, qui compte, non pas la somme des rangs des sujets du groupe I, mais la somme des
dépassements des sujets de l'autre groupe (II), donc
W = U+
n 1 (n 1 + 1)
2
ou n1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2 .
b.3 Test de Kolmogorov - Smirnov pour deux échantillons :
L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra
en évidence que des différences concernant justement les espérances des lois concernées. Le
test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois :
Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun
des deux échantillons.
Reprenons l'exemple précédent et notons Fn la fonction de répartition empirique de la
survie dans le groupe non traité. F'n la même quantité par le groupe traité.
Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on
considère
C. Huber
Indépendance
37
D = maximumx (Fn (x) - F'n (x))
appelée la statistique de Kolmogorov.
Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test
unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une
direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart
maximal des fonctions de répartition empiriques dans le sens choisi. Ici:
D = maximumx ( Fn (x) - F'n (x) )
appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous.
Fn
1
F'
n
0
0,4
1,2
2,9
4,2
5,6
6,5 6,7
7,9
13,2
Fonctions de répartition empiriques des durées de survie :
Fn pour le groupe non traité
F'n pour le groupe traité.
La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table L,
intitulée "Table of critical values of KD in the Kolmogorov - Smirnov two-sample test". KD
y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des
deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux
colonnes intitulées "One-tailed test". Pour le test bilatéral, aux deux colonnes "Two-tailed
test".
Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation
normale , sous Ho, pour W1, somme des rangs du groupe I :
L (W 1)
≈ N(
n 1 ( n 1 + n 2 + 1) n 1 n 2 ( n 1 + n 2 + 1)
)
;
12
2
C. Huber
Indépendance
38
où n1 et n2 sont les tailles des deux échantillons et N = n1 + n2. Dans notre cas, N = 5 : il
faudrait, pour qu'un test unilatéral soit significatif à 5% que KD soit égal à 4 (et qu'il soit égal
à 5 pour être significatif à 1%) ; Comme ici KD = 3, le test n'est pas significatif (tout au moins
à 5%).
Des trois tests envisagés, le plus puissant est donc ici le test de Wilcoxon. On peut
démontrer qu'il a effectivement de très bonnes propriétés.
Cependant, il faut remarquer qu'il suscite une difficulté : lorsqu'on ordonne les résultats
observés, il se peut qu'il y ait des ex-aequo. On dit "ties" en anglais. Quels rangs leur attribuer
alors ? L'une des possibilités, la plus simple, est d'affecter à chacun des ex -aequo le rang
moyen entre celui de la valeur strictement inférieure et celui de la valeur strictement
supérieure. (Il faut remarquer que cette valeur ne sera pas nécessairement entière).
On peut aussi, mais la réalisation est plus compliquée, affecter aléatoirement les rangs
intermédiaires à l'ensemble des ex-aequo.
3 - Liaison entre deux caractères continus
a - Cas normal :
Nous avons déjà vu lors du cours de PCEM 1 un test qui permet de mettre en évidence
une liaison entre deux caractères continus, lorsque ces deux variables ont une loi jointe
normale et ont la même variance, c'est-à-dire que le couple de variables (X, Y) admet pour
densité de probabilité en tout point (x,y) du plan :
2
2
1
1
f(x,y) =
exp ( (x-µ) - 2ρ(x−µ)(y−µ' ) + (y-µ' ) )
2πσ
2
2
2(1- ρ )
où µ et µ' sont les espérances de X et de Y et ρ le coefficient de corrélation de X et Y:
ρ(X,Y) =
E [(X - EX) (Y - EY)]
σ(X) σ(Y)
Dans ce cas, les variables X et Y sont indépendantes si et seulement si ρ est nul, et le test
d'indépendance est fondé sur la loi du coefficient de corrélation empirique :
n
∑ (x i - x) (y i - y)
i =1
R =:
n
[
∑ (x i - x)
2
n
] [
i =1
∑
2
(y i - y) ]
i =1
dont la loi , qui dépend de n, est tabulée : voir la table de la loi de R à (n-2) degrés de liberté
du cours de PCEM 1.
b - Cas général : méthodes non paramétriques :
C. Huber
Indépendance
39
L'hypothèse de normalité et d'égalité des variances nécessaire à l'utilisation du test R cidessus est très restrictive.
Lorsqu'une telle hypothèse ne peut pas être faite - ce qui est presque toujours le cas en
pratique - on doit trouver une statistique qui, sous l'hypothèse nulle d'indépendance de X et Y,
ait une loi qui soit la même quelle que soit la loi du couple (X, Y) : on dit alors que la
statistique est libre.
L'idée est de remplacer les valeurs des variables par leurs rangs :
on ordonne par ordre croissant les valeurs xi observées et on affecte à chacune son rang, qui
varie ainsi de 1 à n :
R (i) désigne le rang de Xi.
De même pour les yi : S (i) désigne le rang de Yi.
b1 Coefficient de corrélation des rangs de Spearman : rs :
Le coefficient de corrélation des rangs de Spearman, noté rs est le coefficient de
corrélation de la suite (R(i), S(i)), i = 1, ..., n, des rangs :
n
∑ (R(i) - R) (S(i) - S)
i =1
R s =:
n
[
n
2
2
∑ (R(i) - R) ] [ ∑ (S(i) - S) ]
i =1
i =1
Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite
des n premiers entiers. Or on sait que
n
∑
i =1
n
∑
i =1
i
2
=
i =
n (n+1)
2
n (n+1) (2n + 1)
6
donc
R = S =
2
2
n+1
2
ΣR = ΣS =
donc
n (n+1) (2n + 1)
6
En utilisant pour le coefficient de corrélation l'expression
Rs =
Σ RS
2
2
(Σ R ) (Σ S )
on obtient , en notant di la différence R (i) - S (i) entre les rangs de X et de Y :
C. Huber
Indépendance
40
2
rs = 1 -
6 Σ di
3
n - n
Exemple
Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45
à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes
d'Angleterre et du pays de Galles.
Lorsqu'apparaissent des ex-aequo , on affecte à chacun d'eux le même rang, qui est la
moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux.
Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une
telle procédure est négligeable sur le comportement de rs.
Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la
somme des carrés des rangs : Σ R2 (ou Σ S2, ou les deux) ne vaut plus
n (n+1) (2n+1)
6
mais une valeur inférieure qu'il faut alors calculer.
Ville
Bath
Birkenhead
Birmingham
Blackburn
Blackpool
Bolton
Bootle
Bournemouth
Bradford
Brighton
Bristol
Burnley
Coventry
Croydon
Darlington
Derby
Doncaster
East Ham
Exeter
Gateshead
Grimsby
Halifax
Mortalité
per 100,000
Calcium
ppm
(y)
(x)
1,247
1,668
1,466
1,800
1,609
1,558
1,807
1,299
1,637
1,359
1,392
1,755
1,307
1,254
1,491
1,555
1,428
1,318
1,260
1,723
1,379
1,742
105
17
5
14
18
10
15
78
10
84
73
12
78
96
20
39
39
122
21
44
94
8
Ville
Newcastle
Northampton
Norwich
Nottingham
Oldham
Oxford
Plymouth
Portsmouth
Preston
Reading
Rochdale
Rotherham
St Helens
Salford
Sheffield
Southampton
Southend
Southport
Southshields
Stockport
Stoke
Sunderland
C. Huber
Mortality
per 100,000
Calcium
ppm
(y)
(x)
1,702
1,309
1,259
1,427
1,724
1,175
1,486
1,456
1,696
1,236
1,711
1,444
1,591
1,987
1,495
1,369
1,257
1,587
1,713
1,557
1,640
1,709
44
59
133
27
6
107
5
90
6
101
13
14
49
8
14
68
50
75
71
13
57
71
Indépendance
Huddersfield 1,574
Ipswich
1,096
Hull
1,569
Leeds
1,591
Leicester
1,402
Liverpool
1,772
Manchester
1,828
Middlesborough1,704
Swansea
1,625
9
138
91
16
37
15
8
26
13
41
Wallasey
Walsall
West Bromwich
West Ham
Wolverhampton
York
Cardiff
Newport
1,625
1,527
1,627
1,486
1,485
1,378
1,519
1,581
20
60
53
122
81
71
21
14
Ici
rs = - 0, 727 pour les 30 observations de la colonne de gauche.
Que conclure en ce qui concerne ces 30 villes ?
On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion ?
Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des
rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour
l'autre.A chacune de ces permutations, qui sont en nombre n ,correspond une valeur du
coefficient de corrélation de Spearman rs.Chacune de ces valeurs a donc pour probabilité 1/ n
etcette loi a été tabulée.
Lorsque n est assez grand, au-delà de 10, la loi de
T = Rs
n-2
1 - Rs
2
est approximativement la loi de Student à n - 2 degrés de liberté.
b2 Coefficient d'association des rangs de Kendall :
Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives.
Le test correspondant à la même puissance que le précédent, et il a l'avantage de se
généraliser au cas où intervient une troisième variable : voir ci-dessous, le coefficient de
corrélation partielle des rangs.
Voyons, sur un exemple, comment se définit le coefficient de Kendall.
Exemple :
Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c,
et d. Le tableau ci-dessous donne les pronostics, en années :
Patient
Médecin 1 : X
Médecin II : Y
a
1
1,5
b
2
0,8
c
0,9
2
d
0,5
1
Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par
ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau ciC. Huber
Indépendance
42
dessous
Patient
Médecin 1 : R
Médecin II : S
d
1
2
c
2
4
a
3
3
b
4
1
Pour déterminer le degré de correspondance de ces deux classements, on décompte le
nombre de couples (de patients) qui sont rangés dans le même ordre , de la manière suivante :
Le premier couple (d, c) est ordonné de la même manière par I et II : on dit qu'il y a
concordance, et on affecte à ce couple le score + 1; c'est aussi le cas du deuxième couple (d,
a) : on lui affecte aussi + 1; le troisième par contre (d, b) est inversé : il est discordant et on
lui affecte le score - 1, et ainsi de suite .
On obtient finalement, en additionnant les concordances (+ 1) et les discordances (- 1) la
valeur : - 2.
Or la plus grande valeur possible de ce coefficient de concordance est égale au nombre
des couples distincts , c'est-à-dire le nombre des combinaisons de n = 4 objets pris deux par
deux :
4!/(2!2!) = 6
On appelle coefficient d'association de Kendall τ le rapport de la valeur du coefficient de
concordance observée à sa valeur maximale :
ici
2
τ = − = − 0,33
6
Comme le coefficient rs de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus
simple, de le calculer est la suivante :
A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite
de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus
petits que lui. Ainsi cela donne dans notre exemple :
Patient
d: 2-1=1,
c: -2
,
a: -1 ,
ce qui donne en tout -2.
La loi de τ sous Ho est tabulée. De plus, dès que n est supérieur à 10, la loi de
τ − µτ
στ
est approximativement la loi normale N (0, 1), où
στ =
µτ = 0 et
2 (2n+5)
9n (n-1)
C. Huber
Indépendance
43
b3 Coefficient d'association partielle de Kendall τ xy,z :
Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à
l'intervention d'une troisième variable Z.
De manière générale, pour mettre en évidence un tel phénomène, on étudie la corrélation
entre X et Y à Z fixé.
On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et
celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait
l'intelligence.
Exemple :
Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après
remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z
on obtient le tableau suivant :
Sujet
Rang de Z
Rang de X
Rang de Y
a
1
3
2
b
2
1
3
c
3
2
1
d
4
4
4
A chacun des 6 couples de sujets on associe un signe + lorsque la variable
correspondante va croissant et un signe - lorsqu'elle va décroissant, obtenant ainsi le tableau :
Z
X
Y
Couple
+
(a,b)
+
-
(a, c)
+
+
(a, d)
+
+
+
(b, c)
+
+
+
(b, d)
+
+
+
(c, d)
+
+
Dans le cas où X et Y sont indépendants conditionnellement à Z, la concordance entre le
signe de X et celui de Z doit être indépendante de celle qui peut avoir lieu entre ceux de Y et
de Z. On considère donc les effectifs des couples concordants et discordants de la manière
suivante :
Y couples dont le
signe concorde
avec celui de Z
Y couples dont
le signe diffère
de celui de Z
Total
X couples dont le signe
concorde avec celui de Z
A
B
A+B
X couples dont le signe
diffère de celui de Z
C
D
C+D
Total
A+C
B+D
Ici A = 4, B = 0, C = D =1.
C. Huber
n! / 2! (n-2)!
Indépendance
44
On appelle coefficient d'association partielle de Kendall le rapport :
τ xy,z =
AD - BC
(A+B) (C+D) (A+C) (B+D)
qui vaut ici 0,63.
Si l'on avait calculé le coefficient d'association de Kendall τxy , on aurait trouvé
τxy = 0,67 .
Il ne semble donc pas que la concordance entre X et Y soit due à l'influence de Z.
On peut démontrer que
τ xy,z =
τ xy − τ zx τ zy
2
2
(1−τ zy ) (1−τ zx )
qui est une formule plus facile à calculer que la précédente , car le nombre des combinaisons
de n objets pris 2 à 2 devient rapidement très grand avec n . On pourra le vérifier sur
l'exemple.
On ne peut malheureusement pas fonder un test sur ce coefficient, car la loi, sous
l'hypothèse d'indépendance conditionnelle de X et Y, n'a pu encore être calculée. On pourrait
cependant obtenir cette loi par simulation.
C. Huber
45
IV Tests non paramétriques pour comparer
k échantillons
A
k échantillons indépendants :
Médiane généralisée.
Analyse de la variance non-paramétrique.
B
k échantillons liés :
Test de Cochran.
Test de Friedman.
C. Huber
46
A - Tests non paramétriques pour k échantillons
indépendants.
- Test de la médiane généralisée.
- Test de Kruskal-Wallis : analyse de la variance à un facteur.
1 Une extension du test de la médiane :
Etant donnés k échantillons indépendants, pas nécessairement de la même taille,
le test de la médiane sert à tester si tous les groupes ont été tirés de la même
population, ou au moins de populations qui ont la même médiane. On ne peut
faire ce test que lorsque la variable qui a été mesurée est réelle ou a des valeurs
ordonnées.
Pour appliquer cette méthode, on commence par calculer la médiane globale M
de l'ensemble de toutes les observations, obtenue en considérant les k
échantillons comme s'il s'agissait d'un seul. On classe alors chaque valeur
observée par rapport à M et on la remplace par un + si elle est supérieure et par
un - si elle est inférieure.
Pour chacun des k échantillons, cela donne deux scores:
- Le nombre des + . (Le nombre des valeurs supérieures à M)
- Le nombre des - . (Le nombre des valeurs inférieures à M)
On peut alors représenter les observations ainsi dichotomisées par un tableau à k
lignes et deux colonnes où figurent les fréquences des plus et des moins dans
chacun des k échantillons.
Pour teste l'hypothèse que les k groupes proviennent de la même population, au
moins en ce qui concerne les médianes, on calcule la valeur de la statistique
suivante
χ2 = ∑i j
(Oij - Eij)2 / Eij
où Oij est le nombre des observations qui se trouvent à l'intersection de la ligne i
et de la colonne j et Eij l'espérance de cet effectif sous l'hypothèse Ho . C'est la
statistique habituelle du chi 2 d'ajustement appliquée à notre cas où r = 2, c'est à
dire que j = 1, 2, i varie de 1 à k, et dont la loi est approximativement celle d'un
chi 2 à (k - 1) (r - 1) = k - 1 degrés de liberté. La valeur de Eij est égale à la
moitié de l'effectif total dans le groupe j, soit Eij = nj / 2, car si la médiane est la
C. Huber
47
même pour tous les échantillons, on a en moyenne autant de + que de - dans
chaque échantillon.
Remarque
Dans le cas où certaines des valeurs observées sont exactement égales à la médiane globale, il
n'est pas correct de considérer que Eij = nj / 2, car la probabilité d'être inférieur ou égal à m a
pour estimateur 0. 1 / n , la fréquence relative dans l'échantillon global des valeurs inférieures
ou égales à M, qui est supérieure à 1/2. Cela revient à appliquer la technique habituelle qui
veut que Eij = Oi. O.j / n , le produit du total de ligne par le total de colonne, divisé par le total
général n, l'effectif global.
Exemple
Un chercheur dans un centre de santé publique veut étudier l'influence du degré d'instruction
de la mère sur le soin avec lequel elle assure la surveillance médicale de son enfant. Dans ce
but, il considère le niveau maximum de culture atteint par la mère, mesuré par le diplôme le
plus élevé, et par conséquent le nombre d'années d'études que cela suppose, et le nombre de
visites de contrôle médical effectuées pour l'enfant au cours de ses deux premières années.
Niveau d'instruction de la mère
Ecole
élémentaire
4
3
0
7
1
2
0
3
5
1
Collège
2
4
1
6
3
0
2
5
1
2
1
Lycée
(bac)
2
0
4
3
8
0
5
2
1
7
6
5
1
premier cycle
d'université
9
4
2
3
licence
2
4
5
2
maîtrise
ou au-delà
2
6
Le tableau ci-dessus est obtenu de la manière suivante:
Parmi les 528 naissances enregistrées dans une grande maternité pendant une période donnée, il tire
dans la liste alphabétique une sur 12 d'entre elles, ce qui lui donne 44 couples (mère-enfant) pour
lesquels il a les deux informations précédentes. On distingue 6 groupes de mères ayant le même niveau
d'instruction : l'école élémentaire, le collège, jusqu'en troisième, le lycée, jusqu'à l'obtention du bac, le
premier cycle des universités, la licence et enfin la maîtrise ou au-delà.
L'hypothèse nulle Ho est qu'il n'y a pas de différence en ce qui concerne le nombre des visites de
contrôle en fonction du degré d'instruction de la mère. On a donc 6 échantillons indépendants. Si on
les regroupe, on trouve pour médiane globale du nombre des visites M = 2.5, valeur qui laisse 22
observations à sa gauche et 22 à sa droite. Les scores dans chacun des groupes donnent donc le tableau
suivant.
Niveau d'instruction de la mère
C. Huber
48
Ecole Collège
(élémentaire)
Nbre de mères
dont les visites
sont plus fréquentes que la médiane.
5
4
5
5,5
Lycée
(bac)
premier cycle licence maîtrise
Total
(d'université)
(ou au-delà)
7
3
2
1
6,5
2
2
1
6
1
2
1
Nbre de mères
dont les visites
sont moins fréquen
tes que la médiane
5
7
5
5,5
6,5
2
2
1
Total
10
11
13
4
4
2
22
22
44
Les effectifs en italiques représentent les effectifs "calculés", les Eij , alors que les effectifs observés,
les Oïj sont indiqués en caractères ordinaires.
On constate alors qu'on ne peut pas effectuer un test de chi 2 car un grand nombre de cases ont un
effectif inférieur à 5. Cependant, comme les groupes qui contiennent trop peu d'observations
concernent les trois niveaux d'instruction les plus élevés, on peut les regrouper pour en faire un seul :
celui des mères qui ont fait des études universitaires, quel qu'en soit le niveau. Après regroupement
cela donne le tableau suivant
Niveau d'instruction de la mère
Ecole
élémentaire
Nbre de mères
dont les visites
sont plus fréquen
tes que la médiane.
Nbre de mères
dont les visites
sont moins fréquentes que la médiane
Total
Collège
Lycée
(bac)
Etudes universitaires Total
5
4
7
6
5
5,5
6,5
5
5
7
6
4
5
5,5
6,5
5
10
11
13
10
22
22
44
Comme tous les effectifs théoriques (en italique), sont maintenant supérieurs à 5, on peut effectuer un
test du chi 2 sur ce tableau, ce qui donne:
χ2 = (Oij - Eij)2/Eij = (5 - 5) 2 / 5 + (4 - 5.5) 2 / 5.5 +..+ (4 - 5) 2 / 5
= 1,295 .
Comme il reste 4 classes, le nombre de degrés de liberté est égal à 3.
Or la probabilité pour qu'un chi 2 à trois degrés de liberté dépasse cette valeur est égale,
d'après la table, à une valeur comprise entre 0,70 et 0,80. On ne peut donc pas rejeter
C. Huber
49
l'hypothèse nulle selon laquelle le nombre des visites médicales de contrôle pour les enfants
entre 0 et 2 ans est indépendante du niveau d'instruction de la mère.
2 Analyse de la variance non paramétrique : Test de Kruskal-Wallis.
On se souvient que l'analyse de variance classique, qui teste l'égalité des moyennes dans
plusieurs populations, suppose que toutes les variables aléatoires concernées sont normales
(on dit aussi parfois gaussiennes). Si rien ne permet de faire cette hypothèse de normalité,
on peut tester cette hypothèse d'égalité des moyennes grâce au test de Kruskal-Wallis
explicité ci-dessous.
On remarquera que le test précédent permettait de tester l'égalité des médianes.
Les données consistent donc en k échantillons indépendants issus de populations
différentes, dont on se demande si elles ont la même moyenne. On ne fait pas l'hypothèse
de normalité comme en analyse de variance classique, mais on suppose que les lois sont
continues (pour éviter les ex-aequo). Bien sûr, il faut que les grandeurs mesurées le soient
sur une échelle ordinale.
Notons nj la taille du jème échantillon, j = 1, ..., k, et n le nombre total des
observations n = E nj . On ordonne toutes les valeurs dans leur ensemble ( n en tout) et on
remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n
pour la plus grande. A chacun des k échantillons, on fait ensuite correspondre son score
obtenu comme la somme des rangs des observations qui le composent: soit Rj ce score. La
statistique de Kruskal-Wallis est ainsi définie
Rj2
12
K-W =
___________ ∑ ( _____ )
n (n + 1)
-
3 (n + 1)
nj
j
On peut démontrer que lorsqu'il y a suffisamment d'observations (plus de 5 cas dans
chacun des groupes, pour prendre l'approximation habituelle), cette statistique est
approximativement distribuée, si Ho est vraie comme un chi 2 à k - 1 degrés de liberté.
Dans le cas où k =3 et le nombre des sujets dans chacun des trois échantillons est inférieur
à 5, on dispose de tables qui donnent les valeurs critiques exactes pour la statistique K-W.
Exemple 1
Un obstétricien se demande si le fait que la mère fume a une influence sur le poids
du nouveau-né. Les mères sont divisées en 8 catégories par ordre croissant de quantité de
cigarettes fumées par jour, et le poids des nouveau-nés est exprimé en kilos. On obtient le
tableau suivant:
1
2
3
4
5
C. Huber
6
7
8
50
4,5
3,8
4,2
4,5
3,3
3,4
3,0
2,6
4,3
4,6
3,6
4,1
4,2
4,3
3,9
4,4
4,2
4,2
K-W =
4,2
4,3
4,2
3,9
4,3
3,5
3,6
3,8
3,6
3,6
3,9
3,0
3,0
3,1
4,1
3,9
4,1
3,5
3,6
3,2
3,2
3,5
2,2
2,2
3,5
3,4
4,0
2,5
3,0
3,8
4,3
3,2
5,4
4,6
2,9
4,3
3,8
1,1
(12 / 56 (56 + 1)) ∑ ( Rj 2 / nj ) - 3 (56+1)
Ce qui donne, d'après le tableau des rangs ci-dessous
(12 / 56 (56 + 1)) ( 216,5 2 /8 + 414 2 /10 + 277,5 2 /8+ 105, 5 2 /6 +
122 2 /4 + 72 2 /4 + 317 2 /10) - 3x57
=
18,464.
K-W =
Cette statistique suit une loi qui est à peu près un chi 2 à k- 1 7 degrés de liberté.
Or, d'après la table PHo(χ2 > 18,464) < 0,02. On rejette donc Ho .
Rangs des poids de naissance
1
52,5
27,5
41,0
52,5
14,0
15,5
8,5
5,0
2
47,5
54,5
23,0
36,0
41,0
47,5
31,5
51,0
41,0
41,0
3
41,0
47,5
41,1
31,5
47,5
18,5
23,0
27,5
4
23,0
23,0
31,5
8,5
8,5
11,0
5
36,0
31,5
36,0
18,5
De telle sorte que :
Rl = 216,5
R2 = 414,0
R3 = 277,5
R4 = 105,5
R5 =122,0
R6 =71,5
R7 =72,0
R8 = 317,0
Remarque
C. Huber
6
23,0
12,5
12,5
18,5
2,5
2,5
7
18,5
15,5
34,0
4,0
8
8,5
27,5
47,5
41,0
56,0
54,5
6,0
47,5
27,5
1,0
51
Cependant, on remarque qu'il y a beaucoup d'ex-aequo, ce qui est contraire à l'hypothèse que
l'on fait toujours lorsqu'on veut se servir des rangs l'hypothèse de continuité de la loi
sous-jacente, qui interdit les ex-aequo pourvu que la mesure soit très précise. En effet les
mesures ici ne sont pas d'une très grande précision et elles provoquent l'apparition de pas mal
d'ex-aequo.
On sait que si l'on fait la correction pour tenir compte des ex-aequo, on obtiendra une valeur
de K-W plus grande et donc un test plus significatif : on dit que le test sans correction est
conservatif. Pour faire la correction, il faut diviser K-W par la statistique suivante :
1 - (∑ T )/ (n3 - n)
où la sommation a lieu sur toutes les séries d'ex-aequo, et T = t3 où t est le nombre des
ex-aequo dans la série. Les premiers ex-aequo apparaissent dans la série 8 où il y a deux
ex-aequo de rang 2,5 . Donc dans ce cas, t = 2 et T = 8 - 2 = 6. Les ex-aequo suivants ont le
rang 8,5 et sont au nombre de 4, ce qui donne pour la valeur de T correspondante: 43 - 4 = 60.
On a ainsi 13 groupes d'ex-aequo : il y a
- 5 groupes de 2 ex-aequo, donnant T = 6 et ET = 30
- 1 groupe de 3, qui donne T = 24,
- 4 groupes de 4, qui donnent T = 60 et ET = 240,
- 1 groupe de 5, donant T = 120,
- 1 groupe de 6, donnant T = 2 10,
- 1 groupe de 7 donnant T = 336.
Donc 1 - (∑ T )/ (n3 - n) = 0,9945, et K-W corrigé vaut 18,464 / 0,9945 = 18,566. Et la
probabilité pm un chi 2 à 7 degrés de liberté de dépasser cette valeur est inférieure à 0,0 1, et
on rejette donc l'hypothèse nulle avec encore plus de conviction que précédemment.
C. Huber
52
B - Tests non paramétriques pour k échantillons
liés.
analyse de la variance à deux facteurs.
- Test de Cochran réponses binaires.
- Test de Friedman réponses ordinales.
Si l'on veut utiliser un test de comparaison de deux échantillons pour comparer k échantillons,
on aura des difficultés pour deux raisons
- D'une part, il faudra effectuer un très grand nombre de tests; par exemple si k = 5, il faudra
faire 10 tests, le nombre des combinaisons de 5 objets pris deux par deux.
- D'autre part, si chacun de ces tests est fait au niveau 5 %, le résultat obtenu ne le sera pas
avec ce même niveau. On peut prouver que le niveau passe alors à 40 %.
On va voir maintenant deux tests non pararnétriques destinés à remplacer l'analyse de
variance à deux facteurs lorsqu'on n'a pas l'hypothèse de normalité.
1 Le test de Cochran :
Le test de Mac Nemar pour deux échantillons peut être étendu au cas où ron a plus de
deux échantillons. Voici deux exemples de circonstances dans lesquelles on peut
employer un test de ce type :
1) On a plusieurs (n) groupes de (k) sujets comparables (on dit "appariés") qui répondent
à une même question dans des circonstances différentes. Par exemple, de deux
médicaments qui entrent en compétition pour assurer le même service (on peut penser à
l'aspirine et à l'ergotamine pour supprimer les maux de tête par exemple), on leur
demande lequel ils préfèrent, avant une campagne publicitaire pour l'un des deux, après
une telle campagne, après un scandale impliquant le mauvais usage de l'un des deux
produits, etc... .
S'il y a k circonstances différentes, on a k échantillons, qui sont liés puisque ce sont des
sujets appariés qui répondent
2) On relève, sur n sujets, la présence ou l'absence de k symptômes : on a alors k
échantillons qui sont liés car il sagit des mêmes sujets.
Dans ces deux cas, on a k échantillons liés de réponses dichotomiques et le test de
Cochran peut être employé.
Les données peuvent être rangées dans un tableau à n lignes et k colonnes, et on veut
tester que la fréquence des réponses d'une certaine sorte est la même dans chacune des k
colonnes, ou plutôt que les différences peuvent être imputées au hasard seul.
En notant:
- Gj le nombre total de "succès" dans la jème colonne,
C. Huber
53
- Li le nombre total de "succès" dans la ième ligne,
- G la moyenne des Gj ,
la statistique de Cochran est ainsi définie
k
k(k - 1) ∑ (G j − G) 2
j =1
Q=
n
k ∑ Li −
i=1
n
∑L
i =1
2
i
L'indice de colonne j varie de 1 à k et l'indice de ligne i de 1 à n.
Cochran a montré que cette statistique est approximativement distribuée comme un chi 2 à
k - 1 degrés de liberté.
Une formule équivalente à la précédente, mais plus fàcüe à calculer est la suivante
Q = { (k-1)[ k ∑ Gj - (∑ Gj ) ] } / { k ∑ Li - ∑ Li }
2
2
2
Exemple
Une interview est conduite auprès de 18 personnes, la question posée étant "De ces deux
médicaments, lequel utilisez vous de préférence en telle circonstance ? ", la réponse étant
codée 1 s'il s'agit du premier et 0 s'il s'agit du second. On obtient le tableau suivant:
Numéro
1
2
3
4
5
6
7
8
9
10
il
12
13
14
15
16
17
18
Interview 1 Interview 2
1
0
1
0
0
1
1
1
0
1
0
1
1
1
1
1
1
1
1
2
0
1
1
0
0
1
1
1
0
0
1
1
1
1
1
1
1
1
Interview 3
3
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
1
0
0
C. Huber
Li
Li 2
0
2
1
0
1
2
2
1
1
0
3
3
2
2
2
3
2
2
0
4
1
0
1
4
4
1
1
0
9
9
4
4
4
9
4
4
54
G1 = 13
G2 = 13
∑ Li = 29
G3=3
∑ Li2 = 63
Il en résulte que Q = 16,7. Or d'après la table, la probabilité que Q égale ou dépasse
une telle valeur est inférieure à 10-3 puisque sa loi est approximativement un chi 2 à
k- 1 = 2 degrés de liberté.
2 Le test de Friedman
Lorsque les données consistent en k échantillons liés de valeurs ordinales, le test
de Friedman permet de tester si ces k échantillons peuvent être considérés comme
provenant &une même population. Il permet donc de fàire une analyse de variance
à deux facteurs fondée sur les rangs. Comme les k échantillons sont liés, les échantillons
ont tous la même taille, n et l'appariement entre les échantillons fait que les sujets vont k
par k, soit qu'il y ait effectivement.
- n ensembles de k sujets appariés,
- n sujets , chacun sous k conditions différentes ( auto-appariement).
Exemple 1 :
On étudie le délai de disparition &une affection de l'épiderme après remploi de l'une ou
l'autre de 4 différentes thérapies, dont dieux consistent en l'application de pommade et
deux en l'absorption par voie orale &un certain produit Les observations sont les suivantes
sur n = 3 groupes de 4 personnes.
Thérapie
Groupe A
Groupe B
Groupe C
I
11
III
7
8
6
9
6
9
4
5
1
IV
1
2
2
A l'intérieur de chaque ligne, on ordonne les valeurs par ordre croissant et on remplace
chacune &elles par son rang, obtenant ainsi le tableau suivant
Thérapie
Groupe A
Groupe B
Groupe C
I
11
III
3
4
3
R1 = 10
4
3
4
R2 = 11
2
2
1
R3 =5
IV
1
1
2
R4 = 4
Si l'hypothèse nulle est vraie, la répartition des rangs dans chacune des colonne doit
être la même. C'est à dire que l'on doit s'attendre à avoir la même fréquence de 1, 2,
3 et 4 dans chacune des colonnes, ce qui a pour conséquence que la somme des rangs
dans chacune des colonnes devrait être à peu près la même.
En notant R, la somme des rangs de la colonne i, la statistique de Friedman est la suivante:
C. Huber
55
k
12
2
Ri − 3n(k + 1)
Fr =
∑
nk(k + 1) i =1
2
Cette statistique a une loi qui, sous l'hypothèse Ho , est approximativement celle du chi 2
à k -1 degrés de liberté pourvu que n et k soient suffisamment grands. Ici, n n'est pas très
grand
puisqu'il ne vaut que 3.
Aussi on utilise la table exacte pour les petites valeurs de n et k, et on trouve
Fr2 = 7,4 , donc PHo ( Fr2 ≥7,4) = 0,033.
Aussi rejette-t-on l'hypothèse Ho.
Exemple 2 :
On s'intéresse au délai nécessaire à l'élimination des traces dans le sang d'un médicament,
pour une même dose, lorsque on utilise trois différents modes d'administration.
Pour cela, on choisit 18 groupes de 3 personnes appariées sur le sexe, l'âge, le poids
et la gravité de la maladie traitée par ce médicament, et on note le temps nécessaire
à l'élimination de ce produit dans le sang après la prise du produit.
On obtient le tableau d'observations suivant.
Type d'administration
1
2
3
4
5
6
7
8
9
10
il
12
13
14
15
16
17
18
I
1
2
1
1
3
2
3
1
3
3
2
2
3
2
2,5
3
3
2
R1 = 39,5
II
3
3
3
2
1
3
2
3
1
1
3
3
2
3
2,5
2
2
3
III
2
1
2
3
2
1
1
2
2
2
1
1
1
1
1
1
1
1
R2 = 42,5
R3 = 26,0
C. Huber
56
Par suite Fr2 = 8,4 pour un nombre de degrés de liberté égal à k - 1 = 3 - 1 = 2. La probabilité
qu'un chi 2 à 2 ddl égale ou dépasse cette valeur est comprise entre 0,01 et 0,02. Le test est
donc significatif avec un degré de signification inférieur à 2 % et on rejette Ho.
C. Huber
Exercices
57
EXERCICES ET PROBLEMES
1 - Exercices de Révision sur le Calcul des Probabilités
1 Urne
Trouver, en fonction de r, la probabilité pour que, de r chiffres tirés au hasard de {0, 1, 2,
...,9}, l'un après l'autre, avec remise, il n'y en ait pas deux qui soient égaux (r < 10).
Indication : On pourra commencer par supposer que r = 2, puis r = 3 , puis généraliser.
2 Cartes
Un ensemble de 8 cartes contient un joker, et un seul. A et B sont deux joueurs. A choisit 5
cartes au hasard, B prenant celles qui restent.
a) Quelle est la probabilité que A ait le joker ?
b) A jette maintenant 4 cartes et B 2. Quelle est alors la probabilité pour que A ait le joker
sachant que ce dernier n'a pas été jeté ?
3 Conseil de sécurité
Le conseil de sécurité comporte 11 membres dont la Grande-Bretagne, la France, la Chine,
les Etats Unis et la Russie sont des membres permanents.Si, lors d'un meeting, les membres
prennent place au hasard, quelle est la probabilité pour que :
Britanniques et Français soient voisins Russes et Américains non
a) dans le cas où ils sont alignés,
b) dans le cas où ils sont autour d'une table ronde.
Indication : on notera B, F, R, A les quatre représentants en question.
1) Compter le nombre total de dispositions possibles .
2) Pour un placement global donné de {B, F, R, A} réalisant la condition demandée,
compter :
a) le nombre de placements possibles de {B, F, R, A},
b) le nombre de placements possibles des autres membres.
3) Analyser la différence entre l'alignement et la table ronde.
4 Billes en bois et en verre
Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire
(N). Les 2 / 3 des billes sont rouges, le reste noir. La moitié des billes rouges sont en bois,
ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la
couleur. Que faites vous ?
C. Huber
Exercices
58
5 Viager
Avant d'acquérir une propriété en viager pour laquelle l'extinction de la rente annuelle et
fixe dépend de la disparition des deux conjoints actuellement âgés de 60 anspour la femme
et 70 ans pour le mari, un acheteur désire connaître la probabilité de continuation de la
rente au bout de 10 ans.
a) Comment est il possible d'évaluer cette probabilité à partir du tableau suivant ?
Table de mortalité
Nombre de survivants
Hommes
Femmes
Naissance
1 000 000
1 000 000
60 ans
381 065
428 583
70 ans
242 442
312 612
80 ans
80 381
139 349
b) En supposant que la rente annuelle est fixe (pas d'inflation, pas d'intérêt), quel doit être
son montant r pour être équitable ?
2 - Exercices de génétique
Rappel de quelques définitions de génétique :
Base
Gamète
: cellule reproductrice, mâle ou femelle, dont le noyau ne contient que n
chromosomes. Toutes les autres cellules du corps en ont 2n chez les diploïdes.
zygote
: cellule résultant de la fécondation.
diploide : se dit d'un noyau cellulaire possédant un nombre pair de chromosomes, double
de celui des gamètes.
Systèmes de croisement
Les définitions qui suivent concernent uniquement des populations d'effectif infiniment
grand, en l'absence de mutation et de sélection. Cette hypothèse d'absence de mutation et de
sélection signifie que le polymorphisme de la population est conditionné par des gènes
inaptes à subir des mutations d'une part, et tels qu'aucun des génotypes qu'ils définissent ne
soit favorisé par la sélection d'autre part.
L'absence de sélection est définie par les trois hypothèses :
1) Lorsqu'un zygote est formé, la probabilité qu'il a de se développer en adulte apte à la
reproduction ne dépend pas de son génotype.
2) Le nombre de gamètes formés par un individu apte à la reproduction ne dépend pas de
son génotype.
3) La probabilité pour qu'un gamète participe à la formation d'un zygote ne dépend, ni du
génotype de l'individu qui l'a formé, ni de son propre génotype.
Panmixie :
L'hypothèse de panmixie est celle selon laquelle la formation des zygotes résulte de
l'union au hasard entre gamètes femelles et gamètes mâles : Tout se passe comme si deux
tirages au sort indépendants étaient faits, l'un parmi les gamètes mâles et l'autre parmi les
gamètes femelles.
Consanguinité
58
C. Huber
Exercices
59
Coefficient de parenté :
Le coefficient de parenté de deux individus K et L, qui est noté fKL, est égal à la
probabilité pour que, si l'on prend au hasard un des locus (ou loci) du génôme de K et un
des locus homologues du génôme de L, ces deux locus soient identiques.
Locus identiques :
Deux locus sont dits identiques s'ils sont occupés par deux gènes issus par duplications
successives d'un même gène ancêtre, ou si l'un est issu de l'autre par un certain nombre de
duplications successives.
Coefficient de consanguinité individuel :
Le coefficient de consanguinité d'un individu diploide I est la probabilité pour que deux
locus homologues de son génome soient identiques. On le note fI (Cela entraîne que, dans
une espèce diploide, le coefficient de consanguinité de I est égal au coefficient de parenté
de ses parents).
Coefficient de consanguinité moyen α :
d'une population. C'est la probabilité pour que deux locus homologues d'un individu
quelconque de la population soient identiques.
6 Maladie génétique dans une population panmictique :
Une malformation n'ayant pas de retentissement sur la fécondité et déterminée par un
allèle a, récessifautosomique, présente dans une population donnée une fréquence q (= 1 /
10 000) ; on extrait au hasard 10 000 individusde cette population panmictique.
a) Donner, sur cet échantillon, une estimation moyenne (ou estimateur de la moyenne) de :
α) du nombre d'allèles a appartenant à des individus malades.
β) du nombre d'allèles a appartenant à des individus cliniquement sains.
b) Au sein de cette population, les mariages se font au hasard (panmixie). Quelles sont les
fréquences moyennes des mariages suivants :
α) Ceux dont la descendance sera épargnée par la maladie (On donnera une réponse
littérale en fonction de p et q, fréquences respectives des allèles A et a)
β) Ceux dont les enfants seront touchés avec une probabilité de 1 / 4
γ) Ceux dont les enfants seront touchés avec une probabilité de 1 / 2
c) Si au contraire les homozygotes aa ont une fécondité nulle et en admettant que la
sélection n'ait pas d'effet sur les hétérozygotes, calculer quel taux de mutation assurerait à
l'allèle a une fréquence stable.
7 Consanguinité :
Soit un sujet dont les parents sont doubles cousins germains.
a) Etablir l'arbre généalogique
b) Simplifier cet arbre en faisant apparaître les chainons unissant les individus concernés.
c) Calculer le coefficient de consanguinité de ce sujet.
d) Calculer la probabilité a priori pour qu'un tel sujet consanguin développe une
mucoviscidose
(maladie récessive autosomique de fréquence 1 / 2500) sachant qu'on ne possède aucun
renseignement sur la famille.
C. Huber
Exercices
60
8 Achondroplasie :
Un couple de nains achondroplases I1et I2 a eu successivement :
- II1 enfant achondroplase
- II2 enfant normal
- II3 enfant d'aspect achondroplase, décédé à la naissance.
L'achondroplasie est une maladie dominante autosomique, et on peut considérer
l'homozygotie comme létale en général.
a) Donner les génotypes les plus probables des sujets : I1, I2, II1, II2 et II3
b) Quel est le génotype le plus probable des parents de I1 et de I2 ?
c) Quelle était la probabilité, a priori, pour que le couple ait cette descendance et dans cet
ordre ?
d) ... dans n'importe quel ordre ?
e) Quelle est la probabilité, a priori, pour qu'un tel couple ait 3 enfants tous sains ?
f) II2consulte pour un conseil génétique. Evaluer le risque d'achondroplasie pour sa
descendance.
9 Groupes sanguins :
556 individus prélevés au hasard dans une population supposée infiniment grande
présente les caractéristiquessuivantes, en ce qui concerne les gènes autosomaux codominants M et N :
167 sont M
280
MN
109
N
EStimer la fréquence du gène responsable de la synthèse de l'antigène M dans la population
étudiée.
10 Phosphatases érythrocytaires :
Les hématies humaines renferment des phosphatases dénommées "Phosphatases
érythrocytaires". Il en existe trois types, que l'on peut distinguer par électrophorèse,
désignés par A, B et C. Chez certains individus, il existe une seule phosphatase
érythrocytaire; selon le type de celle ci, on désigne le phénotype d'un tel individu par A, B
ou C. Chez d'autres individus, deux sont présentes, les phénotypes correspondants sont AB,
AC et BC.
Sur 268 individus extraits au hasard d'une population humaine, on dénombre
:
25 de phénotype A
106
B
113
AB
9
AC
15
BC
Quelle est l'hypothèse la plus simple sur le déterminisme génétique de ces caractères et sur
le mode de reproduction de la population, qui rende compte de cette distribution ?
11 Génétique et calcul conditionnel
60
C. Huber
Exercices
61
Le coefficient de parenté de deux individus K et L, noté fkl, est égal à la probabilité
pour que, si l'on prend au hasard un des locus du génome de K et un des locus homologues
du génome de L, ces deux locus soient identiques. On dit que deux locus sont identiques
s'ils sont occupés par deux gènes issus par duplications successives d'un même gène
ancêtre ou si l'un est issu de l'autre par duplications successives.
1) Quel est le coefficient de parenté de
- deux soeurs ?
- deux cousins germains ?
2) Les parents du sujet sont doubles cousins germains.
a) Etablir l'arbre généalogique du sujet.
b) Calculer le coefficient de consanguinité du sujet.
On appelle coefficient de consanguinité d'un sujet la probabilité pour que deux
locus homologues de son génome soient identiques.
3) La mucoviscidose est une maladie récessive autosomique de fréquence 1 / 25000.
Quelle est la probabilité pour que le sujet développe une mucoviscidose ?
4) Comparer ce risque à celui encouru par un sujet non consanguin. Conclusion ?
3 - Exercices variés
(Expérimentation biologique, épidémiologie, essais thérapeutiques) ;
12 Suspension d'organismes virulents
Une grande suspension d'organismes virulents est diluée à la concentration moyenne de 1
organisme pour 0. 1 ml. En supposant que les organismes sont répartis aléatoirement dans
la suspension et que tout organisme virulent causera une infection chez l'animal de
laboratoire à qui il sera injecté, quelle proportion des animaux sera infectée si on injecte
0.1ml à chacun des animaux d'un lot important ?
13 Rhumes
Lors d'une étude portant sur les relations entre l'incidence des rhumes à différentes périodes
de l'année, un échantillon de 100 personnes a été tiré (au hasard) d'une certaine population.
On a obtenu les résultats suivants :
- 42 ont été attaqués les deux fois.
- 11 ont été attaqués pendant la première période mais pas pendant la seconde.
- 19 n'ont jamais été attaqués.
1) Peut on considérer que le fait d'avoir été attaqué pendant la première période a un effet
sur le risque encouru lors de la deuxième période ?
2) Cet effet est il plutôt immunisant ou plutôt sensibilisateur ? Justifier vos réponses par un
test dont vous donnerez le degré de signification.
14 poids de naissance
Les données ci-dessous sont relatives au poids de naissance de 18 645 enfants dans le sudouest de l'Angleterre en 1965 (données de Pethybridge, Brit. J. prev. Soc. Med. 28, p. 10-18
C. Huber
62
Exercices
(1974).
Poids [0 1[
Effectif 3
Poids
Effectif
[1 2[
[2 3[
40
[3 4[
[4 5[
[5 6[
[6 7[
[7 8[
126
364
1182
4173
6723
82
[8 9[
[9 10[
4305
1365
[10 11[ [11 12[ [12 13[ [13 14[ [14 15[
240
39
2
0
1
Le poids moyen de naissance observé est de 7. 375 livres et l'écart-type observé de 1.2375.
1) Donner un intervalle de confiance à 95% pour le poids moyen de naissance.
Donner un intervalle de confiance à 95% et à 98% pour le poids moyen de naissance.
2) Tracer sur un même graphique la fonction de répartition observée et la fonction de
répartition de la loi normale de même moyenne et de même variance qu'elle. Ces
deux lois vous paraissent elles proches ?
3) Effectuer un test pour vérifier s'il est ou non acceptable de considérer que le poids de
naissance suit une loi normale.
15. Poids de naissance et âge de la mère :
On désire savoir s'il existe une liaison entre le poids de naissance Y d'un enfant et l'âge X
de sa mère à l'accouchement. Dans ce but, on prélève 100 dossiers médicaux dans le fichier
des naissances d'une maternité. Les résultats obtenus sont les suivants (X est exprimé en
années et Y en kilogrammes) :
Σ xi = 2 500
Σ xi2 = 65 000
Σ yi = 300
Σ yi2 = 925
Σ xi yi = 7545
1) Quelle(s) hypothèse(s) devez vous faire pour pouvoir envisager d'utiliser ces données
pour répondre à la question que l'on se pose ? Ces hypothèses seront faites dans
toute la suite.
2) Tracer la droite de régression observée de Y par rapport à X.Quelle est sa pente ?
Commenter.
3) Quelles hypothèses proposez-vous de tester pour mettre en évidence l'existence d'une
liaison entre le poids à la naissance d'un enfant et l'âge de sa mère ? Effectuer ce
test et énoncer clairement la conclusion correspondante.
4) On a prélevé 100 dossiers médicaux de femmes qui ont accouché récemment, par tirage
au sort dans l'ensemble des maternités relatives à la population considérée. Les
résultats ainsi obtenus en ce qui concerne l'âge des mères sont les suivants :
Σ xi = 26 80
Σ xi2 = 74 350
Quelles hypothèses proposez-vous de tester pour pouvoir vérifier si au moins une partie des
hypothèses faites au 1) est justifiée ?
16. Aptitude à goûter la phénylthiocarbamide :
L'aptitude à être goûteur ou non goûteur de la PTC (Phénylthiocarbamide) est contrôlée par
un locus à 2 allèles T et t, de fréquences respectives p et q. Les individus tt sont non
goûteurs. Les individusb TT et Tt sont goûteurs (T est dominant).
62
C. Huber
63
Exercices
1) Quelle est, en fonction de p et q la fréquence des génotypes TT, Tt et tt ? (On suppose
que les gènes s'associent de manière indépendante pour former les génotypes).
2) On suppose que les mariages ont lieu au hasard. Combien y a-t-il de mariages différents
possibles ? Quelles sont leurs probabilités ?
3) Sur cinq familles de parents Tt x tt ayant un seul enfant chacune, quelle est la
probabilité:
a) que 3 exactement de ces familles aient un enfant goûteur ?
b) que chacune de ces familles ait un enfant goûteur ?
4) Pour estimer la fréquence p' des goûteurs dans la population, on a réalisé une enquête
portant sur n = 625 sujets. Parmi eux, 500 sont goûteurs et 125 non goûteurs.
Donner un intervalle de confiance de coefficient de confiance 98 % pour p'.
5) Pouvez-vous déduire de la question précédente un intervalle de confiance pour q ?
6) Sachant qu'un couple a cinq enfants en tout dont un seul est goûteur, quelle est la
probabilité qu'il s'agisse d'un couple Tt x tt ?
17. Dénombrement de globules rouges
Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un hématimètre est
donné ci-dessous :
X = i le nombre de 0
globules d'une case
ni = nombre
de cases
ayant i globules
1
2
3
4
5
6
7
8
9
10
13 41 90 112 100 66 45
22
9
1
1
N
500
On donne Σ x2 = Σ ni i2 = 8 114 .
I–
1) Calculer la moyenne observée m du nombre X de globules par case et la variance s2 de
X.
2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique.
3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0 l'estimation
de µ par le maximum de vraisemblance. Comparer avec le résultat du 1).
4) (ne nécessite pas d'avoir résolu le 3)).Quel estimateur peut-on donner de µ ? Quelles
sont les propriétés de cet estimateur ?
II –
1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de
savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain.
2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m [m1, m2] où m1 et
m2 sont définies par Prob [m ∈ (m1, m2) / µ = 4] = 5 %. Quelles sont vos conclusions
?
3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la
répartition théorique moyenne du nombre de globules est donnée par le tableau suivant
où Ri est l'effectif théorique ou "attendu" des cases ayant i globules:
C. Huber
64
Exercices
X=i
Ri
0
9,1
1
2
3
36,6 73,3
97,7
4
5
6
7
8
97,7 78,1 52,1 29,8 14,9
9
10
11
6,6
2,7
1,4
Peut-on admettre au risque de 5 % que les résultats observés initialement sont
ceux d'un sujet sain ?
4) Comparez aux résultats du II - 2) et commentez.
III –
Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on
recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte
que le nombre de cases sans globules. On obtient alors les résultats suivants :
X
0
21
Nbre total de cases
1er prélèvement
13
487
500
2ème prélèvement
19
481
500
La proportion de cases vides est-elle la même pour ces deux prélèvements ?
18. Délai d'apparition d'une maladie
On suppose que le délai X d'apparition d'une maladie après la mise en contact avec un
milieu polluant est une variable aléatoire dont la loi admet la densité
f (x) = a.exp (-ax) si x ≥ 0
=0
si x < 0
1) Quelle est la fonction de répartition F (x) de cette variable au point x ?
2) Calculer EX et Var (X).
3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant un
délai moyen d'apparition M = ( X1 + ... +Xn) / n. Que valent l'espérance E(M) et
la variance V(M) de M ?
4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un écart
type empirique de 5 jours. peut on en déduire un intervalle de confiance au risque
3% pour le paramètre inconnu a ?
5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme sur le
segment [0 a]
64
C. Huber
65
Exercices
19. Diabète infantile
Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête sur le
diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde
diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet
avant qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie,
c'est à dire le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit
supérieure à 15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes.
Durée
Nombre de
d'évolution
cas
Rétinopathies
R1
R2
R3
15 < t ≤ 20
173
67
45
15
7
20 < t ≤ 25
58
32
17
12
3
t > 25
38
22
12
7
3
TOTAL
269
121
34
13
74
Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que
la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans.
Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en
sont atteints ont été répartis en trois catégories : R1, R2 et R3 d'après la gravité de la
rétinopathie : R1 si l'atteinte est légère, R2 si elle est moyenne et R3 si elle est forte.
a) Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P
étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du
seuil de signification accepterait on cette hypothèse ?
b) Donner une estimation par un intervalle de confiance à 5 % de la proportion des
malades atteints de rétinopathie dans chacune des classes de durée d'évolution.
Peut-on considérer que ce pourcentage croit significativement en même temps que
la durée d'évolution, au seuil de 5 % ?
c) Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la
durée d'évolution du diabète ?
d) 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée
H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la
tension, et obtenu au bout de 40 jours de traitement les résultats suivants :
Numéro du 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
patient
Différence +1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9 -8 -18 -5 -22 -21 -15 -11
de tension
Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au
seuil de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet).
C. Huber
Exercices
66
C. Huber
66
Téléchargement