Telechargé par lao.lmnop

cours1 Maths

publicité
Biostatistiques et Bioinformatique
Cours de Biostatistiques
⇒ Statistiques descriptives
⇒ Estimation ponctuelle et par intervalle
⇒Tests de comparaison de moyennes (formules uniquement)
David Fouchet
(inspiré de Dominique Mouchiroud)
[email protected]
Bât. Gregor Mendel
La Doua Lyon I
1
Introduction
La statistique est une méthode de raisonnement permettant
d’interpréter des données dont la caractéristique
fondamentale est la variabilité.
– Statistique descriptive : représentation graphique et résumé des
données observées sur un échantillon à l’aide d’indices
statistiques.
– Statistique inductive ou inférentielle : à partir des observations
faites sur un échantillon, on induit des propositions sur la
population en faisant appel aux calculs des probabilités.
2
POPULATION
p, µ, σ2 ?
Estimation des
paramètres
Tests
d’hypothèses
Echantillonnage
ECHANTILLON
n individus
Inférence
statistique
Statistique descriptive
k
, x , s2
n
3
Exemples de questions qui peuvent
faire l’objet d’une étude statistique
♦ Est-ce que la masse corporelle des chevreuils à la naissance est influencée
par la nature de l’habitat ?
Comparaison de deux moyennes observées
♦ Est-ce que le taux de survie à l’hibernation des marmottons est lié au
fait qu’ils aient été parasités ou non parasités par les poux.
Comparaison de deux fréquences observées
♦ Est-ce que la composition en base C+G des gènes codants dépend du niveau
d’expression du gène ?
Analyse de Variance à un facteur « niveau d’expression »
♦ Est-ce qu’il existe une relation entre le niveau d’ensoleillement et le
degré alcool du raisin ?
Régression linéaire
4
Plan général
Cours 1 :
Cours 2 :
Cours 3 :
Cours 4 :
Cours 5 :
Cours 6 :
Cours 7 :
Révisions : Statistiques descriptives, Intervalle de confiance
Révisions : Tests d’hypothèses
Révisions : Tests du Chi-deux
Analyse de variance à un facteur
Analyse de variance à deux facteurs
Analyse bivariée
Modèle linéaire
5
Plan général
Cours 1 :
Cours 2 :
Cours 3 :
Cours 4 :
Cours 5 :
Cours 6 :
Cours 7 :
Révisions : Statistiques descriptives, Intervalle de confiance
Révisions : Tests d’hypothèses
Révisions : Tests du Chi-deux
Analyse de variance à un facteur
Analyse de variance à deux facteurs
Analyse bivariée
Modèle linéaire
6
Chapitre 5
Révisions
I. Statistiques descriptives
I.1
I.2
I.3
I.4
Echantillonnage
Caractères (Variables) aléatoires
Indices statistiques
Exemples
7
I. Statistiques descriptives
Echantillonnage
Echantillonnage aléatoire simple
POPULATION
ECHANTILLON
Prélèvement de n individus
- aléatoire: chaque individu à une
probabilité connue et non nulle
d’être tiré.
- simple : les individus sont tirés
indépendamment les uns des autres
avec une même probabilité
n individus
=
Taille de l’échantillon
8
I. Statistiques descriptives
Caractères ou Variables aléatoires
Le caractère désigne une grandeur observable sur un individu,
susceptible de varier et prenant différents états appelés
modalités.
La notion de caractère se confond avec la notion probabiliste de
variable aléatoire
9
I. Statistiques descriptives
Caractères ou Variables aléatoires
♦Variables qualitatives : modalités non mesurables
• nominale : modalités exprimables par des noms et non hiérarchisées.
(dichotomique = 2 modalités).
Couleur des yeux, sexe, présence/absence d ’une maladie
• ordinale : traduit le degré d’un état sans que ce degré ne puisse être
défini par un nombre. Modalités hiérarchisées.
Stade d’une maladie +, ++, +++, niveau A+,A,A-
10
I. Statistiques descriptives
Caractères ou Variables aléatoires
♦Variables quantitatives
: modalités mesurables
discrète si elle ne prend que des valeurs discontinues
dans un intervalle donné : dénombrement ou numération.
Nbre d’enfants dans une famille, nbre de petits par portée, nbre de fumeurs
continue si elle peut prendre toutes les valeurs dans
un intervalle donné : mesure de type continu.
Taille, poids, longueur, etc.
11
I. Statistiques descriptives
Indices statistiques
Si on appelle X, la variable mesurée et xi la mesure de la variable X pour l’individu i, alors
pour un échantillon de n individus, nous aurons une série statistique de la forme :
{x1, x2, x3,………, xi,………,xn}
Position : fixe l’ordre de grandeur de l’ensemble des données
Moyenne arithmétique
x
Dispersion : fixe la variabilité des mesures par rapport à un paramètre
de position.
Variance observée:
s2
Ecart-type (standard deviation: s.d) :
( standard error : s.e. ) :
s
s2
n−1
12
I. Statistiques descriptives
Indices statistiques
Moyenne arithmétique :
Données non groupées
1 n
x = ∑ xi
n i =1
avec n taille de l’échantillon
13
Climatologie
Exemple
Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi :
583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258
n =16
Moyenne :
1 n
12866
x = ∑ xi =
= 804,13 mm
n i =1
16
14
Climatologie
Exemple
Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi :
583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258
n =16
Moyenne :
1 n
12866
x = ∑ xi =
= 804,13 mm
n i =1
16
La moyenne appartient à l’intervalle des données.
15
I. Statistiques descriptives
Indices statistiques
Moyenne arithmétique :
Données non groupées
Données groupées
en classes
1 n
x = ∑ xi
n i =1
1 k
x = ∑ ni xi ‘
n i =1
avec n taille de l’échantillon
k
avec
n = ∑ ni
et k : nbre de classes
i =1
xi‘représente la moyenne de la modalité i de la variable X (valeur médiane de la classe):
présente chez ni individus de l’échantillon.
La variable X présente k modalités différentes.
16
Agronomie
Exemple
Afin d’étudier l’influence du régime alimentaire sur la prise de poids des
poulets et sur leur état sanitaire, deux lots de 32 poulets ont été nourris avec respectivement
les aliments A et B. Les poulets sont pesés en début d’expérience et au bout de 90 jours.
va. continu
Poids (en g) au jour 0 des poulets qui suivront le régime A :
[790 – 810[
[810 – 830[
[830 – 850[
[850 – 870[
[870 – 890[
[890 – 910[
[910 – 930[
Poids pi
1
0
2
13
9
4
3
Nbre de poulets
ni
800
820
840
860
880
900
920
pi'
k
n = ∑ ni = 32
i =1
k = 7 classes ou modalités
1 k
p = ∑ ni pi' =
n i =1
27940
= 873,13 g
32
17
I. Statistiques descriptives
Indices statistiques
Moyenne arithmétique :
- Facile à calculer
- La somme des écarts à la moyenne est nulle:
n
∑ (xi − x ) = 0
i =1
- Fortement influencée par les valeurs extrêmes
- Représente mal une population hétérogène (polymodale)
18
I. Statistiques descriptives
Indices statistiques
Médiane : Valeur pour laquelle 50% des valeurs observées sont
supérieures et 50% sont inférieures
Si n impair, n = 2m+1 et Me = xm+1
Si n pair, n = 2m et Me = (xm+xm+1)/2
- Meilleure que la moyenne lorsque la distribution des données ne suit pas une distribution
normale,
- Pas influencée par des valeurs extrêmes comme la moyenne,
- Se prête mal aux calculs statistiques.
Mode : valeur de la classe de fréquence maximale dans la distribution
des fréquences
- Se prête mal aux calculs statistiques.
19
Climatologie
Exemple
Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi :
583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258
Moyenne :
n =16
1 n
12866
x = ∑ xi =
= 804,13 mm
n i =1
16
524 528 583 619 688 730 756 777 875 884 890 901 926 958 969 1258
Médiane : n = 2m d’où m = 8
Me = (x8+x9)/2 = 826 mm
Mode : non calculable
20
Agronomie
Exemple
Afin d’étudier l’influence du régime alimentaire sur la prise de poids des
poulets et sur leur état sanitaire, deux lots de 32 poulets ont été nourris avec respectivement
les aliments A et B. Les poulets sont pesés en début d’expérience et au bout de 90 jours.
va. continu
Poids (en g) au jour 0 des poulets qui suivront le régime A :
[790 – 810[
[810 – 830[
[830 – 850[
[850 – 870[
[870 – 890[
[890 – 910[
[910 – 930[
Poids pi
1
0
2
13
9
4
3
Nbre de poulets
ni
800
820
840
860
880
900
920
pi'
1
1
3
16
25
29
32
k
n = ∑ ni = 32
i =1
k = 7 classes ou modalités
1 k
p = ∑ ni pi' =
n i =1
Médiane
27940
= 873,13 g
32
n = 2m d’où m = 16
Médiane = (x16+x17)/2 = 870 g
Mode = 860 g
21
I. Statistiques descriptives
Représentation graphique
Poids : X
[790 – 810[
[810 – 830[
[830 – 850[
[850 – 870[
[870 – 890[
[890 – 910[
[910 – 930[
ni
1
0
2
13
9
4
3
Effectifs ni
15
10
5
Mode :
860g
Médiane : 870 g
Moyenne : 873,13 g
x ≈ Me ≈ Mo
0
X : poids des poulets
Histogramme
Hypothèse : la distribution de la variable « poids des poulets »
suit une loi normale
22
II. Lois de probabilité
Lois continues
Loi normale ou loi Laplace-Gauss
♦La loi normale est la loi de variables aléatoires continues dépendants d’un grand
nombre de causes indépendantes dont les effets s’additionnent et dont aucun n’est
prépondérant.
Poids, taille, rendement, dosage, etc..
♦La loi de probabilité d’une v.a. normale notée Ν(µ,σ) est donnée
par la densité de probabilité
2
1  x −µ 
− 

2 σ 
1
x a f (x) =
e
σ 2π
Espérance : E(X) = µ
Variance : V(X) = σ2
23
I. Statistiques descriptives
Indices statistiques
Variance observée :
n
1
1 n
2
2
2
2
ou s =
Données non groupées s = ∑ ( xi − x )
x
−
x
∑
i
n
n i =1
i =1
k
k
1
Données groupées
s 2 = ∑ ni ( xi' − x )2 avec n = ∑ ni et k : nbre de classes
i =1
n i =1
2
1 k
s = ∑ ni x'2i − x 2
n i =1
2
Ecart-type : s =
s2
même unité que la moyenne
Le coefficient de variation :
s
cv =
x
Indice de dispersion absolue sans unité, il peut être comparé d’une variable à l’autre24.
Climatologie
Exemple
Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi :
583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258
Moyenne : x =
n
1
12866
x
=
= 804,13 mm
∑
i
16
n i =1
n =16
n
10905666
1
− (804,13) 2 = 34979, 07
Variance : s 2 = ∑ xi2 − x 2 =
16
n i =1
s = 187,03 mm
Une variance est toujours positive .
Moyenne ± écart-type donne des valeurs (généralement) comprises dans
la série statistique. (attention, quelques exceptions: cf plus loin)
25
Agronomie
Exemple
Afin d’étudier l’influence du régime alimentaire sur la prise de poids des
poulets et sur leur état sanitaire, deux lots de 32 poulets ont été nourris avec respectivement
les aliments A et B. Les poulets sont pesés en début d’expérience et au bout de 90 jours.
va. continu
Poids (en g) au jour 0 des poulets qui suivront le régime A :
[790 – 810[
[810 – 830[
[830 – 850[
[850 – 870[
[870 – 890[
[890 – 910[
[910 – 930[
Poids pi
1
0
2
13
9
4
3
Nbre de poulets
ni
800
820
840
860
880
900
920
1
1
3
16
25
29
32
k
n = ∑ ni = 32
i =1
k = 7 classes ou modalités
1 k
p = ∑ ni pi' = 27940 = 873,13 g
32
n i =1
pi'
1 n
24414800
2
2
2
′
−
(873,13)
= 606,5
s
=
n
p
−
p
=
Variance :
∑
i i
32
n i =1
2
s = 24,63 g
26
I. Statistiques descriptives
Cas des Variables aléatoires discrètes
Le balanin Curculio elephas est un parasite de la châtaigne. La distribution
du nombre de parasites par fruit est la suivante :
Variable aléatoire X
xi : nombre de parasite
ni : nbre de châtaignes ayant xi
parasites
0
1
2
3
4
5
6
7
8 9 10 11
1043 172 78 15 10 7
2
1
0
0
0
1
k
Taille de l ’échantillon
n = ∑ ni
= 1329 fruits
avec k : nbre de valeurs prises par X
i=1
k
Moyenne arithmétique
Variance observée
1
x = ∑ ni x i
n i=1
= 0,36 parasites/fruit
1 k
s = ∑ ni x i2 − x 2
n i =1
2
= 0,77
s = 0,88 parasites/fruit
27
I. Statistiques descriptives
Cas des variables aléatoires discrètes
Nbre de châtaignes
1200
1000
800
600
Série1
400
Mode :
0 parasite/fruit
Médiane : 0 parasite/fruit
200
Moyenne : 0,36 parasites/fruit
0
1
0
2
1
3
2
4
3
5
4
6
5
67
8
7
89
10
9
11 12
10
11
Nbre de parasites
Diagramme en bâtons
Hypothèse : la distribution de la variable « nombre parasites
par fruit » suit une loi de Poisson
28
II. Lois de probabilité
Lois discrètes
Loi de Poisson
♦ On appelle processus poissonnien (ou processus de Poisson), le modèle
probabiliste des situations qui voient un flux d’évènements se produire les uns à la
suite des autres de façon aléatoire (dans le temps et dans l’espace).
♦ Une variable aléatoire X à valeurs dans Ν suit une loi de Poisson de paramètre λ
(λ > 0) notée P(λ) lorsque:
P(X = k) =
♦ Espérance de X : E(X) = λ
et
λke −λ
k!
Variance de X : V(X) = λ
29
I. Statistiques descriptives
Représentation graphique
40
Variable continue : histogramme
Variable discrète : bâtons
35
30
25
20
15
Est-elle unimodale?
Est-elle symétrique?
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
45
40
35
30
Peut-on la rattacher à une
distribution normale?
25
20
15
10
5
0
1
2
3
4
5
6
7
8
30
14
Bilan
Variable continue
Moyenne
1 n
x = ∑ xi
n i=1
Données non groupées
x=
Données groupées
Variance
Représentation
1 k
ni xi′
∑
n
i =1
k
1
x = ∑ ni x i
n i=1
1 n 2
s = ∑ xi − x 2
n i =1
2
Données non groupées
Données groupées
Variable discrète
1 k
s = ∑ ni xi′2 − x 2
n i =1
2
Histogramme
k
1
2
2
s = ∑ ni x i − x
n i =1
2
Diagramme en bâton
31
Plan général
Cours 1 :
Cours 2 :
Cours 3 :
Cours 4 :
Cours 5 :
Cours 6 :
Cours 7 :
Révisions : Statistiques descriptives, Intervalle de confiance
Révisions : Tests d’hypothèses
Révisions : Tests du Chi-deux
Analyse de variance à un facteur
Analyse de variance à deux facteurs
Analyse bivariée
Modèle linéaire
32
POPULATION
p, µ, σ2 ?
Estimation des
paramètres
Tests
d’hypothèses
Echantillonnage aléatoire
ECHANTILLON
n individus
Inférence
statistique
Statistique descriptive
k
, x , s2
n
33
L'inférence statistique traite principalement de deux types de problèmes :
• l’estimation de paramètres (espérance, variance,
fréquence,..)
• les tests d’hypothèses (comparaison de moyenne, de
distributions,...)
L’inférence statistique ne conduit jamais à une conclusion stricte
mais elle associe toujours une probabilité à cette conclusion.
Cela provient du fait que l’on tente de tirer des conclusions sur une
population (grand nombre d’individus) sur la base des observations
réalisées sur un échantillon, représentant une portion restreinte de la
population.
34
Révisions
Chapitre 6
I. Estimation
I.1 Définition et propriétés
I.2 Loi de la moyenne et d’une fréquence
I.3 Estimation ponctuelle
I.4 Estimation par intervalle
35
I. Estimation
Définition
L’estimation a pour objectif de déterminer les valeurs inconnues
des paramètres de la population (p, µ, σ2) à partir des données de
l'échantillon (f, x , s2).
L'estimateur d’un paramètre théorique θ notée est fonction des
observations résultant d’un échantillonnage aléatoire simple de la
population. C’est une variable aléatoire dont la distribution de
probabilité correspond à la distribution d'échantillonnage du
paramètre θ avec une espérance E( ) et une variance V( ).
Ex: ̅ est un estimateur de la moyenne
Critères: Convergence, Sans biais, Variance Minimale
36
I. Estimation
Distribution d’échantillonnage
POPULATION
X → N ( µ,σ)
k échantillons aléatoires simples
de n individus
xi
x1
s
21
s2i
d’où est une variable aléatoire
dont la loi de probabilité admet comme
distribution, la distribution d’échantillonnage de la moyenne associée à une
espérance E( ) et une variance V( ).
xk s2
k
{x
}
1 , x 2 , ......, x i , ...... x k
x1 ≠ x2
Fluctuation d’échantillonnage
Distribution d’échantillonnage de la moyenne
Mesurer les fluctuations d’échantillonnage => précision de l’estimation
37
Indépendance statistique
Si l’on considère n réalisations indépendantes d’une même épreuve,
on obtient une série de v.a. X1,X2,….,Xi,….,Xn définies sur le même
espace fondamental et de même loi de probabilité alors :
n
E(X1 + X2+…+ Xi +. …Xn ) =
∑ E(X )
i
i=1
n
V(X1 + X2+…+ Xi +. …Xn ) =
∑V (X )
i
i=1
38
Le théorème central limite
de Laplace-Liapounov
Condition :
Si l’on considère une série de n v.a. X1,X2,….,Xi,….,Xn indépendantes définies sur le
même espace fondamental et de même loi de probabilité {E(Xi ) = µ et V(Xi ) =σ2 }, on
construit la variable aléatoire Sn telle que :
Sn = X1 + X2 +…+ Xi + ...+ Xn avec E(Sn ) = nµ
et
V(Sn ) = nσ2
Théorème central limite:
Soit la variable aléatoire Sn résultant de la somme de n v.a. indépendantes et de
même loi, la variable centrée réduite Z n = Sn − nE ( X i ) suit une loi normale réduite
nV ( X i )
Ν(0,1) lorsque n → ∞ quelque soit la loi de probabilité suivie par les variables
aléatoires.
39
Loi de probabilité de la moyenne X
Soit X une variable aléatoire suivant une loi normale d’espérance µ et
de variance σ2 et X1,X2,…,Xi,…,Xn , n variables aléatoires copies
indépendantes de X telles que E(Xi) = µ et V(Xi) = σ2
alors la variable aléatoire X
X1 + X 2 + ... + X i + ... + X n 1 n
= ∑ Xi
telle que X =
n
n i=1
2
σ
suit une loi normale d’espérance µ et de variance
n
40
Loi de probabilité de la moyenne
X
Variabilité de
Si
X v.a. qui suit une loi normale N ( µ , σ )
alors
x1 x2
X
x3 x4
Variabilité de
 σ 
N
v.a. qui suit une loi normale
 µ,

n

X
La variance de la moyenne est toujours
plus petite que la variance de la variable
aléatoire.
X −µ
→ Ν(0,1)
σ n
Variable normale centrée réduite
si X suit une loi normale, vrai ∀ n
si X suit une loi quelconque, vrai pour n ≥ 30
41
Loi de probabilité d’une fréquence
POPULATION
X →B (n, p)
r échantillons
n individus
n individus
X variable aléatoire discrète
n individus
K nombre de succès
k1
{
k2
kr
k i}
k1 k 2
kr
, , ......, , ......
n n
n
n
La fréquence K/n est une
variable aléatoire
Distribution d’échantillonnage de la fréquence
42
Lois discrètes
Loi binomiale
♦ La variable binomiale, Sn ,représente le nombre de succès obtenus lors de la
répétition de n épreuves, chaque épreuve ne pouvant donner que deux résultats possibles.
n
Sn = ∑ X i
i =1
Xi variable de Bernoulli avec p = P(succès) = P(X=1) et p + q = 1
q = P(echec) = P(X=0)
♦ La loi de probabilité suivie par la somme de n variables de Bernoulli où la
probabilité associée au succès est p, est la loi binomiale notée Β(n,p) avec
P(Sn = k) = Cnk p k q n−k
♦ Espérance de X : E(X) = np
Variance de X : V(X) = npq
Hypothèse : le nombre de marmottons femelles dans une
portée de 5 petits suit une loi Binomiale Β(5, 0,5)
43
Loi de probabilité d’une fréquence
Soit X une variable aléatoire discrète suivant une loi binomiale B(n,p)
dans la population et k, le nombre de succès observé sur un échantillon de
n individus,
alors la variable aléatoire K définie sur tous les échantillons
de taille n suit une loi binomiale d’espérance E(K) = np et V(K) =npq
Approximation: la variable aléatoire F = K / n
suit une loi normale d’espérance E(F)= p et de variance V(F) = pq/n
si n est assez grand (n ≥ 30, np ≥ 5, nq ≥ 5).
44
Loi de probabilité d’une fréquence
POPULATION
X →B (n, p)
n individus
k1
n individus
k2
n individus
kp

pq 
K
v.a. qui suit une loi normale N  p,

n


n
vrai si n ≥ 30, np et nq ≥ 5
K
−p
n
→ N(0,1) (théorème central limite)
pq
n
45
Estimation ponctuelle
♦ estimation de l’espérance µ :
1 n
µˆ = X = ∑ X i
n i =1
=> la moyenne arithmétique
♦ estimation de la variance σ2 :
n
σˆ 2 =
n 2
S =
n −1
∑(X
i =1
i
− X )2
n −1
=> pas exactement la variance observée
♦estimation d’une fréquence :
pˆ =
observée
K
Nbre de succès
=
n Nbre total d ' observations
=> la fréquence
46
Estimation par intervalle
L’estimation par intervalle associe à un échantillon aléatoire, un
intervalle [θ1 , θ 2] qui recouvre θ avec une certaine probabilité.
Cet intervalle est appelé l’intervalle de confiance du paramètre θ car la
probabilité que θ dont la valeur est inconnue se trouve compris entre
θ1et θ 2 est égale à 1-α ,
P(θ1 < θ < θ2 ) = 1 - α
Son complément α correspond au coefficient de risque ,
P( θ ∉ [θ1 , θ2 ]) = α
47
α = 0,01
99 chan ces su r 100 que l a va le ur du pa r am ètr e
r eche rché se t rouv e dan s l’i nterv al le de
con fi ance m ai s la p r écision autour de la va l eur
prédit e est f aible
α = 0 ,05
95 chan ces su r 100 que l a va le ur du pa ram ètr e
r eche rché se t rouv e dan s l’i nterv al le de
con fi ance et p réc is on autour de la va l eur
i
prédit e cor r ecte.
α = 0 ,10
90 chan ces su r 100 que l a va le ur du pa ram ètr e
r eche rché se t rouv e dan s l’i nterv al le de
con fi ance m ai s p réc isi on autour de la va l eur
prédit e élevé e.
48
Formules dans les différents cas de figure
Est-ce que n≥30 ?
OUI
NON
On doit supposer la normalité de la
variable mesurée (Xi~N(µ,σ))
Connaît-on la variance ?
NON
Connaît-on la variance ?
NON
OUI
On estime:
n
σˆ 2 =
s2
n −1
σˆ 

IC α =  x ± ε α

n

OUI
On estime:
n
σˆ 2 =
s2
n −1
σ 

IC α =  x ± ε α

n


n −1 σˆ 
IC α =  x ± tα

n

σ 

IC α =  x ± ε 49
α

n

Convergence ta→αa
Lorsque n > 30 la loi de student converge vers une loi normale
centrée réduite ainsi la valeur de tα (n-1) est égale à εα.
Ci-dessous, un exemple pour un risque α = 0,05
Taille de
l’échantillon
Ecart-réduit
Variable de
student
n = 10
εα = 1,960
tα = 2,228
n =20
εα = 1,960
tα = 2,086
n = 30
εα = 1,960
tα = 2,042
n = 40
εα = 1,960
tα = 1,960
50
Exemple
1. Echantillonnage et statistique descriptive
Lors d’une campagne de printemps, 5 mâle chamois ont été capturés et
pesés (en kg).
220 – 198 – 251– 214– 211
1
x =
n
n
∑ xi
i =1
= 1094/5 = 218,8 kg
2. Estimation du poids moyen dans la population adulte
µ = x = 218 ,8 kg
51
Exemple
3. Estimation au risque 5% du poids moyen des
chamois dans la population des Bauges
µ = X ± tα ,n −1
S2 = 310,96
S = 17,63 kg
σˆ
n
avec
1
x =
n
σˆ 2 =
n
∑ xi
i =1
n 2
S =
n −1
= 218,8 kg
n
2
(
)
x
−
x
∑ i
i =1
t =variable de student avec n-1 ddl et α = 0,05
n −1
= 388,7
t0,05,4 = 2,776
µ = 218,8 kg ± 24,5
194,3 kg ≤ µ ≤ 243,3 kg
52
Intervalle de confiance d’une fréquence p
Estimation ponctuelle:
K
pˆ = f =
n
Par intervalle de confiance:
K
ICα = ± ε α
n
pˆ qˆ
n
avec εα valeur d’une variable normale centrée réduite pour la probabilité α et en prenant pour
la variance l ’estimateur de p.
53
cette relation est vraie si n≥30, nf≥5et n(1-f)≥5
Exemple
Donner une estimation au risque 2% du pourcentage de marmottons
parasités dans la population sachant que 212 marmottons sur 400 capturés
étaient parasités par les poux.
K
ICα = ± ε α
n
pˆ qˆ
n
avec
212
pˆ =
= 0,53
400
qˆ =
400 − 212
= 0 , 47
400
ε =Variable normale réduite avec α = 0,02
ε0,02 = 2,326
p = 0,53 ± 0,058
0,472 ≤ p ≤ 0,588
54
Les tests de comparaison de moyenne
(Formules)
55
Comparaison à une moyenne théorique
Est-ce que n≥30 ?
NON
OUI
On doit supposer la normalité de la
variable mesurée (Xi~N(µ,σ))
Connaît-on la variance ?
NON
NON
OUI
On estime:
σˆ 2 =
z=
On estime:
n
σˆ 2 =
s2
n −1
n
s2
n −1
On considère
x − µ0
σˆ / n
Connaît-on la variance ?
On considère
z=
x − µ0
σ/ n
Comparé à εα
Comparé à εα
(Table loi normale) (Table loi normale)
On considère
t=
x − µ0
σˆ / n
OUI
On considère
z=
x − µ0
σ/ n
Comparé à tαn-1
Comparé
56 à εα
(Table loi student n-1 ddl)
(Table loi normale)
Comparaison de deux
moyennes observées
Est-ce que n≥30 ?
NON
OUI
On doit supposer la normalité des
variables mesurées
Connaît-on la variance ?
Connaît-on la variance ?
NON
NON
On estime:
σˆ 1 2 =
σˆ 2 2 =
OUI
n1
2
s1
n1 − 1
n s + n2 s2
σˆ 2 = 1 1
n1 + n 2 − 2
2
n2
2
s2
n2 − 1
On considère
z=
On teste σ1=σ2= σ et on
estime σ par :
x1 − x 2
σˆ 12
n1
+
σˆ 22
n2
Comparé à εα
(Table loi normale)
On considère
z=
x1 − x 2
σ 12
n1
+
σ 22
n2
2
On considère
t=
x1 − x 2
1
1
σˆ
+
n1 n 2
OUI
On considère
z=
x1 − x 2
σ 12
n1
+
σ 22
n2
Comparé à εα
Comparé à tαn1+n2-2
Comparé à εα
57
(Table loi normale) (Table loi student n1+n2-2 ddl) (Table loi normale)
Téléchargement