Résumés synoptiques de statistique.

publicité
CHAPITRE XI
RÉCAPITULATION
DES PRINCIPAUX RÉSUMÉS
SYNOPTIQUES
Résumé du chapitre I (Statistique descriptive) ................................................498
Résumé du chapitre II (Introduction aux probabilités)....................................500
Résumé du chapitre III (Principales distributions théoriques) .......................502
Résumé du chapitre IV (Induction statistique sur moyenne et fréquence) ......504
Résumé du chapitre V (Introduction aux tests d’hypothèse) ..........................506
Résumé du chapitre VI (L’ajustement linéaire)...............................................508
Résumé du chapitre VII (Comparaisons d’échantillons).................................510
Résumé du chapitre IV (Induction statistique - cas de la variance) ................512
498
RÉSUMÉ DU CHAPITRE I - STATISTIQUE DESCRIPTIVE
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
*
Dans l’étude d’un ensemble de n éléments, chaque élément est caractérisé par…
,
Index
plusieurs caractères
Table
ou
1 seul caractère
qualitatif
des
un caractère peut être ou…
quantitatif
Matières
• = à chaque élément j est associée une mesure xj.
• La variable X désigne l’ensemble des valeurs prises par ce caractère quantitatif.
• Si à plusieurs éléments j (en nombre ni) est
associée la même mesure xi, l’ensemble des
couples (xi, ni) définit la distribution statistique de la variable X.
• La variable X peut être
- continue (= susceptible de varier de façon
continue)
- ou discrète (= variant par «saut»).
• = chaque élément possède ou non une qualité donnée;
• les différentes qualités envisagées sont appelées modalités (en nombre r).
Les éléments peuvent être groupés en classes de
valeurs (en nombre r).
• Le tableau qui donne la liste des n éléments avec leurs modalités (pour les
caractères qualitatifs) et leurs valeurs de X (pour les caractères quantitatifs)
est un tableau de données ponctuelles.
• Le tableau qui donne:
- soit les couples (xi, ni) pour les variables quantitatives,
- les couples (i, ni) pour les variables qualitatives,
s’appelle un tableau de distribution et décrit la partition de l’ensemble selon le caractère étudié.
Observations faites à des dates différentes (ou sur des
groupes différents)
xt
• indice élémentaire: I ( X ) t ⁄ t = ------1- × 100
xt
1 0
0
• indice synthétique pour résumer un ensemble
d’indices élémentaires
Indice
des prix
Indice
de Paasche de Laspeyres
Statistique appliquée à la gestion
• On définit autant de partitions que de
caractères.
• Les tableaux de contingence sont les tableaux de distribution utilisés pour décrire un ensemble analysé à travers
plusieurs caractères.
n
∑
n
p i, t q i, t
1
0
i=1
L ( p ) t ⁄ t = ----------------------------------n
1 0
∑
j=1
n
p j, t q j, t
0
0
∑ pi, t1 q i, t1
=1
P ( p ) t ⁄ t = i----------------------------------n
1 0
∑
j=1
des quantités
p j, t q j, t
0
1
∑ p i, t0 qi, t1
i
=1
L ( q ) t ⁄ t = ----------------------------------n
1 0
∑
j=1
n
p j, t q j, t
0
0
∑ p i, t1 q i, t1
i
=1
P(q)
= ----------------------------------t1 ⁄ t0
n
∑
j=1
p j, t q j, t
1
0
499
Calculette
Statistique
Calculette
Problème : synthétiser les informations relatives à un ensemble
d’éléments examinés dans l’optique de
• Synthèse numérique: fréquences ni/n
• Synthèse par l’image:
- Diagramme à secteurs (rect. ou circ.)
- Diagramme à barres
- Courbe de Pareto
... qualitative
... graphique
variable... ...quantitative
1,0
P(X ≤ xi)
Fonction de répartition
Graphique «boîtes à moustaches»
xi
Courbe de Pareto
1,0
xi
...dispersion
Paramètres de...
Tableau de
données
distribution
ponctuelles
• Moyenne:
n
∑ x j (tableau de données ponctuelles)
r
i=1
p
∑ n i. ⋅ xi (tableau de contingence)
i=1
• Médiane: Me = valeur de X telle qu’il y ait
autant d’observations ayant une valeur inférieure (ou égale) à Me que d’observations ayant une
valeur supérieure à Me : F(X≤Me) = 0,5.
• Quartile: Q1 tel que F(X≤Q1) = 0,25 ; Q3 tel
que F(X≤Q3) = 0,25 ; Q2 = Me
• Mode: Mo = valeur de X dont la fréquence observée est maximale.
•
1
COV ( X, Y ) = --n
i=1
2
r
= ∑ fi ( xi – x ) 2
j=1
1
--n
1
--n
n
∑ xj2 – x 2
r
∑ n i xi2 – x 2
i=1
r
= ∑ fi xi2 – x2
j=1
• Écart-type σ = σ
• Coefficient de variation: σ / x
• Intervalle interquartile: Q3 - Q1
n
x i y i – x ⋅ y (tableau de données ponctuelles)
i=1
p
q
- COV ( X, Y ) = 1--n- ∑ ∑ nij x i yj – x ⋅ y (tableau de contingence)
i = 1j = 1
z = ax + by
Z = aX + bY ⇒
2
2
V ( Z ) = a V ( X ) + b V ( Y ) + 2abCOV ( X ,Y )
∑
n
∑( xj – x )
i=1
• Calcul de la covariance entre X et Y:
-
1
--n
1
--- ∑n i ( x i – x ) 2
n
i=1
calcul
1
x = --n
∑
f i x i (tableau de distribution)
définition
r
j=1
relation de
-
Table
des
Fonction de répartition
• Variance: V(X) ou σ2 :
∑
,
xi
sans classes de valeurs X
P(X<xi)
étude d’une seule variable oui
..tendance
centrale
i=1
3
P(X ≤ xi)
X
xi
non
ni xi =
2
Courbe de densité de probabilité
P(X ≤ xi)
xi
X
avec classes de valeurs
1,0
-
1
*
2
X
Récapitulation
des principaux résumés synoptiques
Chapitre III
Fi
variable continue
Courbe des fréquences cumulées
r
6
Matières
xi
1
x = --n
9
5
Index
synthèse... ... par des paramètres
Histogramme
ni ou fi
Diagramme
en bâtons
1
x = --n
/
8
4
0
Variable discrète
-
C =
7
500
RÉSUMÉ DU CHAPITRE II - INTRODUCTION AUX PROBABILITÉS
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
Une épreuve est une expérience ou un processus dont le résultat est incertain. Une épreuve peut être.
*
,
Index
Table
des
Matières
Soit un ensemble physique de n éléments sur lequel sont définies 1 ou plusieurs partitions correspondant à des caractères qualitatifs ou
quantitatifs (variable discrète, et classes de valeurs en cas de variable continue). Cet ensemble
peut être décrit par un tableau de contingence (si
2 partitions ou plus).
La probabilité P(E) de l’événement E se définit
correctement en cas de tirage aléatoire dans l’ensemble (⇒ équiprobabilité de tirage de tous les
éléments) comme:
de cas favorablesP ( E ) = Nombre
------------------------------------------------------------Nombre de cas possibles
Statistique appliquée à la gestion
THÉORÈMES DE PROBABILITÉ
non exclusifs
E1 et E2 sont
exclusifs
Définition de l’exclusivité
(ou incompatibilité) de E1 et E2 :
P (E1 et E2) = 0
P (E1 ou E2) = P (E1) + P (E2) - P (E1 et E2)
(Théorème des probabilités totales)
E1 et E2 sont
dépendants
indépendants
Définition de l’indépendance entre E1 et E2 :
P (E2/E1) = P (E2) ou P (E1/E2) = P (E1)
P(E1 et E2) = P(E1).P(E2/E1) = P(E2).P(E1/E2)
(Théorème des probabilités composées)
P(E1/E2) = P (E1 et E2) / P(E2)
P(E2/E1) = P (E1 et E2) / P(E1)
… unique
ou
Définition de l’épreuve: tirer au hasard un élément de l’ensemble.
Résultat de l’épreuve: constitué par l’ensemble
des caractéristiques physiques observables sur
l’élément tiré.
• Au vu du résultat de l’épreuve, on dit que
l’événement E se produit ou non.
• E est défini par la réalisation d’un événement élémentaire ou par la « combinaison » de plusieurs événements élémentaires Ei.
• Les événements élémentaires correspondent à la réalisation de l’une des modalités
de l’un des caractères retenus.
• Les «combinaisons» d’événements s’effectuent à partir des relations « et » et
«ou»: E = E1 et E2 ; E = E1 ou E2 (E1 et
E2 sont des modalités de caractères différents, pour que E ne soit pas impossible).
• On définit également E = E1/E2 comme la
réalisation de l’événement E1, sachant que
l’événement E2 est déjà réalisé.
• Si E est l'événement X = xi, et pi sa probabilité de réalisation, l'ensemble des
couples (xi, pi) définit la variable aléatoire X.
• Cette distribution des valeurs de X est
résumable par des paramètres, les probabilités jouant le même rôle que les
fréquences; la moyenne est appelée espérance mathématique et est notée E
(X).
• S’il existe une formule mathématique
permettant de calculer pi à partir de xi,
on parle de modèle statistique.
Ei et Ej (ou Ek) étant des modalités de 2 caractères
≠:
P ( Ej ⁄ Ei ) ⋅ P ( Ei )
P ( Ei ⁄ E j ) = ---------------------------------------------------r
∑
P ( Ej ⁄ Ek ) ⋅ P ( Ek )
Théorème
de Bayes
k=1
Les variables aléatoires X et Y sont indépendantes
si les événements X = xi et Y = yj sont indépendants
quels que soient i et j; leur covariance COV (X, Y)
est alors nulle.
501
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
… constituée de plusieurs
épreuves élémentaires
*
,
Index
Table
des
Matières
Ensemble physique n’existant pas; 3 causes:
• À chaque épreuve élémentaire, on associe un ensemble d’événements
élémentaires exclusifs. On définit donc une partition par épreuve élémentaire.
• L’événement est défini à partir d’une «combinaison» d’événements
élémentaires (comme dans le cas d’une épreuve unique). Sa probabilité se calcule à partir des théorèmes de probabilités et des résultats à
des problèmes de dénombrement.
Problèmes de dénombrement
• nombre Pn de permutations (nombre de mots différents de k lettres différentes,
à partir d’un alphabet de n = k lettres différentes): Pn = k!
• nombre A nk d’arrangements (nombre de mots différents de k lettres différentes, à partir d’un alphabet de n lettres différentes):
k
n!
A n = -----------------( n – k )!
• nombre C nk de combinaisons (nombre de groupes différents de k lettres différentes, à partir d’un alphabet de n lettres différentes):
k
n! C n = -----------------------( n – k )! k!
E( Y) = k ⋅ E( X)
Y = k ⋅ X ⇒ V ( Y ) = k2 ⋅ V ( X )
E(Z) = a ⋅ E(X) + b ⋅ E(Y)
Z = aX + bY ⇒
2
2
V(Z) = a V(X) + b V(Y)
+ 2abCOV ( X ,Y )
Récapitulation
des principaux résumés synoptiques
Chapitre III
• non-matérialité des éléments de l’ensemble: matérialisation par liste des résultats possibles (faire très attention
à leur équiprobabilité et se ramener au cas de l’ensemble
physique),
• référence au passé: P(E) = fréquence observée sur le
passé,
• probabilité subjective définie a priori comme la
«chance» que l’on donne à la réalisation de E.
502
RÉSUMÉ DU CHAPITRE III - LES PRINCIPALES DISTIBUTIONS
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
LOI BINOMIALE B (n ; p)
*
,
Index
Table
des
Matières
x
x
FORME DE LA LOI
n–x
n!
x
Cn ⋅ p ⋅ ( 1 – p )
= --------------------------- ⋅ p ⋅ ( 1 – p )
x! ⋅ ( n – x )!
x
l P( f
n = f = --n- ) ≡ P(X = x): loi Binomiale en proportion
l
P(X = x) =
n–x
PROPRIÉTÉS DE LA LOI
E(X) = n . p V(X) = n . p . (1 – p)
p ⋅ (1 – p)
V(fn) = -----------------------E(fn) = p
n
L (X1) = B (n1 ; p)
L (X2) = B (n2 ; p)
⇒L (X1+X2) = B (n1+n2 ; p)
APPROXIMATION
n . p . (1 - p) ≅ n . p
OUI
Statistique appliquée à la gestion
L (X) = B (n ; p) ≅ P (n . p)
oui
NON
n . p . (1 - p) ≅ n . (1 - p)
L (n - X) = B {n ; (1 - p)} ≅ P {n . (1 - p)}
NON
pas de bonne approximation
LOI de POISSON P (λ)
GÉNÉRATION ET SYMBOLES UTILISÉS
processus de Poisson
Génération approximation d’une loi Binomiale
λ: paramètre de Poisson
{
FORME DE LA LOI
x
–λ λ
P(X = x) = e
⋅ ----x!
PROPRIÉTÉS DE LA LOI
E(X) = V(X) = λ
P(X = x ) - = λ
---------------------------P(X = x – 1 ) x
L (X1) = P (λ1)
L (X2) = P (λ2)
dans la reconnaissance
} utilisées
empirique d’une loi de Poisson
⇒L (X1+X2) = P (λ1+λ2)
LOI DE STUDENT
APPROXIMATION
λ > 20 ⇒
L (X) = P (λ) ≅ N (λ, λ )
L ( X ) = S t ν ( x, σ )
• Symboles:
- les mêmes que ceux de la loi Normale, plus ν (= nombre de degrés de liberté),
- loi continue tabulée utilisée pour l’estimation dans les petits échantillons.
• Approximation: ν > 30 ⇒ St ν ( x, σ ) ≅ N ( x, σ ) .
• Remarques sur les problèmes possibles: 5 données interviennent: α,
sance de 4 d’entre elles engendre celle de la 5e.
x , σ, xα, ν; la connais-
THÉORIQUES.
503
Calculette
Statistique
Calculette
LOI BINOMIALE B (n ; p)
GÉNÉRATION ET SYMBOLES UTILISÉS
C =
/
7
8
9
4
5
6
1
2
3
0
n = nombre d’épreuves indépendantes de même type
l p = probabilité de réalisation de l’événement étudié, au cours de l’une quelconque des épreuves
l X = variable aléatoire définie comme le nombre observable de réalisations de l’événement étudié au
cours des n épreuves (0 ≤ X ≤ n)
⇒ variable aléatoire n – X = nombre observable de non-réalisations de l’événement étudié au
cours des n épreuves (0 ≤ n –X ≤ n)
l fn = X/n = variable aléatoire définie comme la fréquence observable d’épreuves conduisant à la
réalisation de l’événement (0 ≤ fn ≤ 1)
lx = nombre de réalisations de l’événement étudié au cours des n épreuves
lf = x / n = fréquence observée de réalisation de l’événement étudié au cours des n épreuves
l
*
,
Index
Table
des
Matières
NON
1p - – 1----------– p- ⋅ ---------------< 0, 3
1–p
p
n
n > 5 ET
OUI
( 1 – p -) }
L (X) = B (n ; p) ≅ N {n p ; np ( 1 – p ) } L (fn) = B (n ; p) ≅ N {p ; p------------------n
LOI NORMALE: L ( X ) = N ( x, σ )
GÉNÉRATION ET SYMBOLES UTILISÉS
• X = variable aléatoire continue de moyenne x et d’écart-type σ; – ∞< X < + ∞
• effet d’un très grand nombre de causes indépendantes, à effets additifs, chacune d’entre elles
ayant un effet négligeable par rapport à l’ensemble des autres.
•
X–x
T = ------------ ; variable centrée réduite associée à X; de moyenne t
σ
= 0 et d’écart-type = 1
FORME DE LA LOI
xα
1
P ( X < x α ) = -------------- ∫ e
σ 2π
x–x 2
– ⎛ -----------⎞ ⁄ 2
⎝ σ ⎠
dx = α ; loi tabulée.
–∞
•
•
x
= Me = Mo ; courbe symétrique par rapport à un axe perpendiculaire à x
L ( X 1 ) = N ( x 1 ;σ 1 )
⇒ L ( X ) = L ( X 1 ± X 2 ) = N ( [ x 1 ± x 2 ] ; σ 12 + σ 22 ) ; généL ( X 2 ) = N ( x 2 ;σ 2 )
ralisable à la somme d’un nombre quelconque de variables suivant une loi Normale.
• Théorème de la limite centrale:
n
n
Y = ∑ X i ⇒ L ( Y ) = N ( m ;σ ), avec m = ∑ x i et
i=1
i=1
n
σ2
= ∑ σ i2 si n ≥ 30.
i=1
• loi remplacée par la loi de Student lorsque σ est estimé (cf. chapitre IV)
• Remarques sur les problèmes possibles: 4 données interviennent: α, x , σ, xα ; la connaissance
de 3 d’entre elles engendre celle de la 4e.
Récapitulation
des principaux résumés synoptiques
Chapitre III
APPROXIMATION
504
RÉSUMÉ DU CHAPITRE IV - L’INDUCTION STATISTIQUE.
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
*
Un échantillon de n éléments se définit comme l’un des sous-ensembles possibles tiré d’une population-mère de N éléments
,
VARIABLES
Index
ALÉATOIRES
Table
CARACTÈRES
Matières
QUALITATIFS QUANTITATIFS
des
CERTAINES
N
M
s
n
m
s
N
p
n
f
X,
mn,
sn
σ*2=V(mn)
fn
σ*2=V(fn)
Statistique appliquée à la gestion
Un tirage est dit exhaustif lorsque l’on prélève les éléments simultanément, ou successivement sans
remise de l’élément qui vient d’être tiré dans la population-mère.
• Un échantillon aléatoire est composé d’éléments tirés «au hasard» dans la population-mère,
c’est-à-dire ayant tous la même probabilité a priori d’appartenir à l’échantillon; cette égalité
de chance suppose un recensement préalable (= base de sondage) de la population-mère.
• Les sondages aléatoires sont à un degré (utilisation de table de nombres au hasard, tirage systématique) ou à plusieurs degrés.
• Les échantillons empiriques (méthodes des quotas…) sont utilisés en l’absence de base de
sondage et, en toute rigueur, ne permettent pas de jugement en probabilité.
n
• Il existe C N échantillons différents de taille n, tirés d’une population de taille N. Chacun est
caractérisable par des paramètres.
• La distribution d’échantillonnage d’un paramètre donné (ex.: x ) est la distribution statistique
de ce paramètre dans tous les échantillons possibles de taille n, ce qui permet de définir la
variable aléatoire x n (ou mn) lorsque le tirage est aléatoire.
• Cette distribution d’échantillonnage du paramètre étudié peut à son tour être caractérisée par
des paramètres, comme toute distribution statistique.
• Il ne faut pas confondre, pour une variable quantitative, la variance de la population-mère
( σ 2 ), la variance observée sur un échantillon donné ( s 2 ) et la variance de la distribution
2
d’échantillonnage des moyennes observables dans un échantillon ( σ* ).
• L’estimateur θ̂ n est une approximation d’un paramètre inconnu θ de la population-mère, à
partir des données d’un échantillon aléatoire de taille n.
• Une estimation ponctuelle est la valeur prise par un estimateur dans un échantillon particulier.
• Principales qualités d’un estimateur:
- sans biais: E ( θ̂ n ) = θ
= estimateur absolument correct
- convergent: V( θ̂ n )→0 si n→N
= estimateur efficace
- à variance V( θ̂ n ) minimale dans les échantillons de taille n
• Principales estimations à utiliser:
p̂
= f;
M̂
ns 2
n–1
= m; σ̂ 2 = ------------
505
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
non
oui
échantillon aléatoire
Pas de jugement probabiliste de l’estimation
L (X) =
non
L (X) = B (n,p)
oui
Rien à faire
non
N
P(λ)
n > 5 et
non
Application directe de
L (nmn) =P(nλ)
non
p
1 –p 1
------------ – ------------ ------- < 0,3
non
1 –p
p
n
oui
non
non n > 30 oui oui n . p . (1 – p) ≅ n . p
L (X) = B (n; p) ≅ P (n . p)
Rien à faire
Application du théorème de la
limite centrale
σ2
nλ > 20
L (mn) = N (M, σ∗)
) σ̂∗
L (fn) = N (p, σ∗)
... quantitative variable… ...qualitative
2
σ
= ----
σ̂∗ 2
s
= --------n–1
n
2
σ̂∗ 2
p(1 – p)
= ----------------n
p̂ ( 1 – p̂ )
= ---------------n–1
p = 0,5
calcul par excès
St ≅ N
Application directe
de St
n–1
L (M) = N (m, σ∗)
p̂ = f
L (p) = N ( p̂, σ∗)
CALCUL DE σ*
non
... quantitative variable... ...qualitative
oui p connu? non oui σ connu? non
σ∗ 2
L (M) = Stn–1(m, σ∗)
pour le calcul de σ*
Application directe de
B(n,p)
rage avec remise?
σ∗ 2
Application du
théorème de la
limite centrale
oui n > 30 non
oui Population-mère infinie ou ti-
oui
non
σ connu?
non
non
Utilisation
d’abaques
oui σ connu non
Application directe
de St
n–1
St ≅ N
1
f -– 1
– f- ------ < 0,3
------------------non
1–f
f
n
Application directe de
L (nmn) =P(nλ)
L (n – X) = B {n; (1 – p)}
≅ P {n . (1 – p)}
oui n > 30 non
n > 5 et
n > 30
non
Rien
à faire
non σ̂ = λ̂
oui
L (mn) = St (M,
n–1
=λ
oui
non L (X) = B (n, p)oui
?
n . p . (1 – p) ≅ n . (1 – p)
oui σ connu? non
Matières
2
σ∗ 2
=
N–n
------------N–1
σ
⋅ ----
σ̂∗ 2
=
N–n
------------N
s
⋅ --------n–1
oui p connu? non
σ∗ 2
n
2
σ̂∗ 2
(1 – p)
– n- ⋅ p---------------------------= N
n
N–1
p̂ ( 1 – p̂ )
– n- ⋅ ------------------------= N
N
n–1
Récapitulation
des principaux résumés synoptiques
Chapitre III
nλ > 20
variable... ... qualitative
...quantitative
oui
oui
... qualitative
oui
?
P(λ)
N
... l’échantillon
Appel à la théorie de l’estimation. Les résultats sont présentés sous une forme propre à l’utilisation car M et p sont en
fait des variables certaines
Appel à la théorie de
la distribution d’échantillonnage
L (X) =
Table
des
Problème: quelle «fourchette» de valeurs attendre
dans la population-mère?
Problème: quelle «fourchette» de valeurs
attendre dans l’échantillon?
...quantitative variable...
,
Index
est connue la principale caractéristique
de tendance centrale de ...
...la population-mère
*
506
RÉSUMÉ DU CHAPITRE V - INTRODUCTION À LA THÉORIE
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
*
,
problème: Décider de la valeur d’un paramètre de la population-mère, à choisir
entre 2 hypothèses, à partir des observations faites sur un échantillon
Index
...quantitative
... qualitative
variable...
Table
des
Matières
recherche de σ
ou
recherche de M
oui
Non traité
non
L(X) = N (M,σ)
oui
n > 30
Application du théorème de
la limite centrale
X
mn
N
σ0 ou σ1
M0 ou M1
n
m
s2
Rien à faire
N1 (M1 ; σ 1*)
RÉALITÉ: H0 RÉALITÉ: H1
β
tβ 0
N0 (M0 ; σ 0*)
α
0
M0
DÉCISION: ACCEPTER H0
mn – M0
T = -------------------σ 0*
M1
tα
π
mn – M1
T = -------------------σ 1*
DÉCISION: ACCEPTER H1
mn
• Ici H0 est associé à la moyenne la plus faible; la figure est à adapter au cas inverse
• Double problème de distribution d’échantillonnage, chaque problème étant caractérisé
par 5 paramètres, dont 2 communs:
- le premier, où interviennent: M0, σ0, α, n, π,
- le second, où interviennent: M1, σ1, β, n, π.
n ⋅ s 2 ) et la loi Normale est rem= ---------------(n – 1)
placée par la loi de Student à ν = n – 1 degrés de liberté.
• si σ = σ0 = σ1 = ?, alors estimation de σ ( σ̂
Variables aléa-Variables certaines
toires
L(X)=B
≅N
L(fn)=B
≅N
N
p0 ou p1
n
f
RÉALITÉ: H0 RÉALITÉ: H1
Statistique appliquée à la gestion
V a r i a b l e s Variables certaines
aléatoires
non
2
N1 (p1 ; σ 1*)
β
tβ 0
fn – p1
T = --------------σ 1*
N0 (p0 ; σ 0*)
fn – p0
tα
T = --------------σ 0*
p1
α
0
p0
DÉCISION: ACCEPTER H0
π
DÉCISION: ACCEPTER H1
fn
• Ici H0 est associé à la proportion la plus faible; la figure est à adapter au cas inverse
• Double problème de distribution d’échantillonnage, chaque problème étant caractérisé par 4
paramètres, dont 2 communs:
- le premier, où interviennent: p0, α, n, π,
- le second, où interviennent: p1, β, n, π.
507
DES TESTS.
Calculette
Statistique
Calculette
Problème: choisir, à partir de données fournies par un échantillon, la population-mère, d’où l’échantillon est tiré, parmi 2 possibles. Chaque population-mère est caractérisée par une valeur différente d’un
paramètre donné ou par une distribution statistique.
C =
/
7
8
9
4
5
6
1
2
3
0
*
,
Index
Table
des
DÉCISION
H0 est rejetée au profit de H1
Choix erroné (= erreur de première
H0 Choix correct avec une probabilité espèce), avec une probabilité α (=
(1 – α)
risque de première espèce)
H1
Choix erroné (= erreur de seconde Choix correct avec une probabilité
espèce), avec une probabilité β
(1 – β)
(= risque de seconde espèce)
Problème : Peut-on, avec un risque d’erreur α, rejeter l’hypothèse H0 selon
laquelle une distribution observée est tirée d’une population-mère caractérisée par une distribution théorique, donnée ou estimée?
... qualitative
variable...
Distribution de r effectifs observés ni, à partir d’une partition à
r modalités (⇒ ν = r – 1) ou d’un produit de partitions à s et q
modalités (⇒ ν = (s – 1) (q – 1))
...quantitative
oui L (X) = N
non
Test (graphique) de Lilliefors
Définition de r classes de valeurs (permettant d’observer r effectifs) d’une loi théorique caractérisée par des paramètres connus a priori et/ou u paramètres estimés dans
l’échantillon (⇒ ν = r – u – 1)
oui
Il existe 1 ou plusieurs npi < 5
non non
Il existe 1 ou plusieurs npi < 5 oui
Effectuer des groupements
Effectuer des groupements
Distributions théoriques de r probabilités pi et de r effectifs théoriques npi
Lecture de
χ α2
r
pour le risque α et ν degrés de liberté
2 =
χ cal
∑
i=1
oui
Non rejet de H0 avec un risque d’erreur de seconde espèce β inconnu
2 <χ 2
χ cal
α
( n i – np i ) 2
--------------------------np i
non
Rejet de H0 avec un risque d’erreur α
Récapitulation
des principaux résumés synoptiques
Chapitre III
RÉALITÉ
H0 est retenue
Matières
508
RÉSUMÉ DU CHAPITRE VI- L’AJUSTEMENT LINÉAIRE.
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
Etude simultanée de 2 caractères quantitatifs ⇒ observation de n couples (xi,
yi) ou de triplets (xi, yj, nij), avec dépendance causale de X sur Y postulée pour
des motifs d’ordre extra-statistique.
*
,
Index
Table
non les n observations sont considérées comme constituant un échantillon
des
Matières
yi
oui
ŷ i
b
Y
ei
= ax i + b
oui
la dépendance causale se traduit par la liaison: yi = axi +
b + ei (régression linéaire de Y en X) où X et Y peuvent
éventuellement avoir subi préalablement une transformation (élévation à une puissance, logarithme…)
non
xi
Régression non linéaire: non traité
Problème: recherche d’une valeur pour a et b (car une infinité de droites peuvent prétendre, chacune d’entre elles, résumer correctement le nuage de points).
Un critère de choix possible peut être de trouver le couple (a, b) qui rend minimum
tableau de données ponctuelles:
n
1--COV ( X, Y ) =
( y – y ) ( xi – x )
n ∑ i
méthode des moindres carrés:
Résultats analytiques
Statistique appliquée à la gestion
n
( X, Y -)
a = COV
--------------------------V(X)
avec
∑ e i2
⇒
i=1
i=
n1
1
= --- ∑ x i y i – xy
n
i=1
tableau de contingence:
p
q
1
COV ( X, Y ) = --- ∑ ∑ n ij ( x i – x ) ( y j – y )
n
b = y – ax
i = 1pj = 1q
1
= --- ∑ ∑ n ij x i y j – x ⋅ y
n
i = 1j = 1
Problème : analyse de la «qualité» de la liaison linéaire
. variance totale = variance-résiduelle + variance expliquée: V ( Y ) ≡ σ y2 = σ r2 + σ e2
. Variance résiduelle:
σ r2
n
n
i=1
i=1
2
1
1
= --- ∑ e i2 = --- ∑ [ y i – ( ax i + b ) ] 2 = ( 1 – r )σ y2
n
n
. Coefficient de détermination:
. Coefficient de corrélation:
σ2
[ COV ( X, Y ) ] 2
r 2 = ------------------------------------ = -----eV(X) ⋅ V(Y)
σ y2
1--x ⋅ y – xy
COV ( X, Y ) - = ------------------------------------------------------------------n∑ i i
r = --------------------------------V(X) ⋅ V(Y)
⎛ 1--- x 2 – x 2⎞ ⎛ 1--- y 2 – y 2⎞
⎝n∑ i
⎠ ⎝n∑ i
⎠
. Graphique des résidus standardisés e ⁄ σ en fonction des xi, pour détecter d’éventuelles erreurs de spéi
r
cification et/ou des points aberrants.
509
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
*
,
Index
Table
des
Matières
•
•
•
•
•
•
- variables mesurées sans erreur
- absence de biais systématique: E(εi) = 0
- absence de liaison entre les écarts:
COV(εi,εj) = 0, pour tout couple i,j
- dispersion identique autour de yi :
V(εi) = σ, pour tout i ,
εi
an
bn
permet d’affirmer que:
= a et β̂ = b ;
- α̂
r n2
∑ e i2
Variables certaines
N
yi = αxi + β + εi
ρ2
n
yi = axi+b+ei
r2
n
estimateurs absolument corrects et efficaces
n–2
n–2
(1 – r2 )(n – 1 )
- ρ̂ 2 = 1 – ----------------------------------- : estimateur correct
n–2
- σ̂ 2 = ------------ = ------------ ( 1 – r 2 )V ( Y )
L’hypothèse selon laquelle L(εi) = N (0, σ) permet de fournir des estimations par intervalle de confiance. Appel à la théorie de l’estimation.Les résultats sont présentés sous une forme propre à
l’utilisation car α et β sont en fait des variables certaines
• L ( α ) = St n – 2 ( a, σ̂ a ) avec
n
σ̂ a =
n
σ̂ 2
----------------------------- =
n
∑ ( xi – x )2
( 1 – r2 )V( Y )
-------------------------------(n – 2)V(X)
i=1
n
σ̂ 2
• L ( β ) = St n – 2 ( b, σ̂ b ) avec σ̂ b =
n
n
ˆ
• L ( y j ) = St n – 2 ( a ⋅ x j + b, σ̂ j ) avec
∑ x i2
1 – r 2 )V ( Y ) [ V( X )+ x 2 ]
i = 1 - = (--------------------------------------------------------n
( n – 2 )V ( X )
2
n ∑( x i – x )
i=1
( xj – x ) 2
1
1 – r 2 )V ( Y ) [ ( 1 + n )V( X )+ ( x – x ) 2 ]
σ̂ j = σ̂ 1 + --- + ------------------------------ = (------------------------------j
n
n
( n – 2 )V ( X )
∑ ( xi – x )2
i=1
[ 2 ( r – t .s ) ]
[ 2 ( r + t .s ) ]
α
α
⎛– 1 + e
⎞
–1+e
1
4 – r2
---------------------------------------------------------------------------------• P⎜
=1-2α, avec s = ---------- +--------------------- et n>11
<ρ<
⎟
[ 2 ( r + t α .s ) ] ⎠
n – 1 2( n – 1)2
⎝ 1 + e [ 2 ( r – t α .s ) ]
1+e
• ρ2 est significativement différent de 0 si la pente α l’est aussi.
Récapitulation
des principaux résumés synoptiques
Chapitre III
Variables
aléatoires
Une première série de 4 hypothèses:
510
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
RÉSUMÉ DU CHAPITRE VII - COMPARAISON D’ÉCHANTILLONS
TESTS PARAMÉTRIQUES
... moyennes
*
oui
,
Index
non
2 échantillons (aléatoires) de taille n1 et n2 ?
... d’estimation
Problème ...
... de distribution d’échantillonnage
... variances
Comparaison de...
Table
des
Matières
Problème: (M1-M2) supposé connu
ou postulé: Δ = m n1 – mn2 = ?
Problème: Δ = M 1 – M2 = ?
Appel à la théorie de l’estimation. Les résultats
sont présentés sous une forme propre à l’utilisation
car M1 et M2 sont en fait des variables certaines
Appel à la théorie
de la distribution d’échantillonnage
oui
L (X1) et L (X2) = N non
oui n et n > 30 non
1
oui
2
Tests non paramétriques
Application du théorème de la limite centrale
Non traité
Application du théorème de la limite centrale
oui σ et σ connus ? non
1
2
oui σ et σ connus ? non
1
2
Statistique appliquée à la gestion
oui σ1 = σ2 ? non
ν = n1 + n 2– 2
oui
L ( M 1 – M 2 ) = N ( m 1 – m 2, σ Δ* )
oui
s 12 ⁄ n 1 – 1 + s 22 ⁄ n 2 – 1 2
ν = ------------------------------------------------------------------3
3
4
s 1 ⁄ ( n 1 – 1 ) + s 24 ⁄ ( n 2 – 1 )
ν = n1 + n2 – 2
n1 et n2 > 30 non
oui
L ( m n – m n ) = St ν ( M 1 –
1
2
s 12 ⁄ n 1 – 1 + s 22 ⁄ n 2 – 1 2
ν = ------------------------------------------------------------------3
3
4
s 1 ⁄ ( n 1 – 1 ) + s 24 ⁄ ( n 2 – 1 )
L ( M 1 – M 2 ) = St ν ( m 1 – m 2, σ̂ Δ* )
L ( M 1 – M 2 ) = N ( m 1 – m 2, σ̂ Δ* )
2
oui σ et σ connus ? non
1
2
oui σ = σ ? non
oui σ = σ ? non
1
2
1
2
1
1
σ Δ* = σ ----- + ----n1 n2
σ Δ* =
σ1 = σ2 ? non
n1 et n2 > 30 non
M 2, σ̂ Δ* )
L ( m n – m n )= N ( M 1 – M 2, σ Δ* )
1
non
L (X1) et L (X2) = N
oui n et n > 30 non
1
2
σ 12 σ 22
------ + -----n1 n2
Détermination de σ Δ* ou de σ̂ Δ*
σ̂ Δ* =
σ̂ 12 σ̂ 22
------ + ------ =
n1 n2
1
1
σ̂ Δ* = σ̂ ----- + ----- =
n1 n2
oui
s2
s2
1
2
------------- + ------------n1 – 1 n2 – 1
L (X) = N ?
non
Tests non paramétriques
(non présentés)
n 1 s 12 + n 2 s 22 1
1
--------------------------- ----- + ----n1 + n2 – 2 n1 n2
Analyse de la variance où chaque échantillon correspond à un caractère qualitatif
(⇒ tableau mixte «variables qualitatives / variables quantitatives»)
Problème: les moyennes des échantillons
sont-elles significativement différentes ?
oui 1 seul facteur contrôlé
Source de
Somme des carrés
variation
k
Facteur conS A2 = ∑ n j ( x . j – x .. ) 2
trôlé
j=1
(inter-classes)
nj
Résiduelle
k
(intra-clas- S r2 = ∑ ∑ ( xij – x . j ) 2
j = 1i = 1
ses)
nj
Totale
k
S T2 = ∑ ∑ ( x ij – x .. ) 2
j = 1i = 1
non
n-k
n-1
oui
non
non traité
Degrés Estimation de
σ2
de liberté
k-1
2 échantillons aléatoires tirés de
populations-mères où L (X) = N ?
Problème: σ1 = σ2 ?
F
n 1 ⋅ s n2
σ̂ 12 = ----------------1n1 – 1
S A2
σ̂ A2 = -----------k–1
S r2
σ̂ r2 = ----------n–k
S T2
σ̂ T2 = ----------n–k
σ̂ A2
F = -----σ̂ r2
n 2 ⋅ s n2
σ̂ 22 = ----------------2n2 – 1
Fν
-
1, ν 2
L ( F ) = Fν
σ̂ 12 σ 22
= -----2- ⋅ -----2σ̂ 2 σ 1
1
= n 1 – 1,ν 2 = n 2 – 1
511
RÉSUMÉ DU CHAPITRE VII - COMPARAISON D’ÉCHANTILLONS
TESTS NON PARAMÉTRIQUES
OUI
variables quantitatives ?
Calculette
Statistique
Calculette
NON
C =
/
7
8
9
4
5
6
1
2
3
0
échantillons aléatoires ?
OUI
Pas de jugement probabiliste
NON
2 échantillons aléatoires ?
• 2 échantillons appariés (témoin/traité) X1 et
Test du χ2
X2(⇒Δi = x1i -x2i, avec i = 1, ..., n)
OUI
non traité
NON
Observations des 2
échantillons appariées ?
OUI
• 2 échantillons (témoin/traité) ⇒ X1 (x1i, avec
i = 1, ..., n1) et X2 (x2j, avec j = 1, ..., n2) avec
n 1 ≤ n2
• 2 Hypothèses:
- H0 : échantillons tirés d’une même popula-
• 2 Hypothèses:
- H0 : échantillons tirés d’une même population (⇒ traitement inefficace, E(Δ) = 0, signe
de Δi aléatoire et l’échantillon 1 est l’un des
2n échantillons équiprobables)
- H1 : échantillons significativement différents
(traitement efficace) ; ⇒ H1 défini soit par
M1<M2 soit par M1>M2
• Choix a priori du risque α de rejet à tort de H0,
OUI
Spécifications des lois des variables
aléatoires ou n1 et n2>30
tion (⇒ traitement inefficace et l’échan-
Spécifications des lois des variables aléatoires ou n1 et n2>30
NON
OUI
ou
Test sur les rangs
Test fishérien
Test de Wilcoxon
• Ri = rang de i défini sur l’ensemble des ⎮Δi⎮; si
peu d’ex aequo alors remplacer le rang des ex aequo par le rang moyen du groupe d’ex aequo
• Remplacer Ri par 0 si Δi < 0
n
+
• T cal = ∑ R i comparé à:
i=1
Test paramétrique sur • valeur tabulée de la distribution théorique de T+ à
partir de l’hypothèse d’équiprobabilité découlant
m1 - m2
de H0 :
- tables à l’annexe 11
Test fishérien
Tests non paramétriques
Test sur les rangs
ou
Test de Wilcoxon (Mann-Whitney)
• R1i et R2i rang des x1i et x2i définis sur la réunion
des 2 échantillons; si peu d’ex aequo alors remplacer le rang des ex aequo par le rang moyen
du groupe d’ex aequo
• W cal
n1
=
∑ R1i comparé à:
i=1
• valeur tabulée (annexe X) de la distribution
théorique de W (à partir de l’hypothèse d’équiprobabilité découlant de H0); en outre:
- P(W ≥ w’) = P(W ≤ w) avec:
- w’ + w = n1 (n1 + n2 + 1)
- si n1 et n2 >8
NON
P(W≤Wcal)<α
M1<M2
NON
P(W≥Wcal)<α
OUI
P(T+≥ Tcal )<α
+
n1
n
Scal = ∑ Δ i
i=1
i=1
Calcul de la distribution théorique de S à partir de
l’hypothèse d’équiprobabilité découlant de H0
M1<M2
NON
NON
Non rejet de H0 Rejet de H0 ⇒ Non rejet de H0
⇒ traitement pré- traitement pré- ⇒ traitement présumé efficace sumé inefficace
sumé inefficace
H1= M1>M2
OUI
24
H1= M1>M2
P(T+≤ T cal )<α
+
Scal = ∑ x1i
n1 ( n1 + n2 + 1 ) n1 n2 ( n1 + n2 + 1 )
L ( W ) ≅ N ------------------------------------- ; -----------------------------------------2
12
M1<M2
( n + 1 -) n ( n + 1 ) ( 2n + 1 )
- si n >10 L ( T + ) ≅ N n------------------, ----------------------------------------4
NON
P(S≤Scal)<α
H1= M1>M2
OUI
Index
Table
des
Matières
NON
Tests non paramétriques
n
tillon 1 est l’un des C n1 + n échantillons
1
2
équiprobables); ⇒ M1 - M2 = 0
- H1 : échantillons significativement différents (traitement efficace) ; ⇒ H1 défini
soit par M1<M2 soit par M1>M2
• Choix a priori du risque α de rejet à tort de
H0, ce risque de première espèce étant le seul
spécifié
,
P(S≥Scal)<α
NON
Non rejet de H0 Rejet de H0 ⇒ Non rejet de H0 Non rejet de H0 Rejet de H0 ⇒ Non rejet de H0
⇒ traitement pré- traitement pré- ⇒ traitement pré- ⇒ traitement pré- traitement pré- ⇒ traitement présumé inefficace sumé efficace sumé inefficace
sumé efficace sumé inefficace
sumé inefficace
Récapitulation
des principaux résumés synoptiques
Chapitre III
NON
*
512
INDUCTION STATISTIQUE - CAS DE LA VARIANCE (CHAPITRE IV)
Calculette
Statistique
Calculette
C =
/
7
8
9
4
5
6
1
2
3
0
non
*
,
RIEN À FAIRE
la population-mère
Index
Table
des
Matières
oui
Échantillon aléatoire et L (X) = N
est connue la variance de ...
Problème: Quelle «fourchette» de valeurs de σ2
«attendre» dans l’échantillon?
P ( s 12 < s n2 < s 22 ) = 1 – α → s 12 = ? ; s 22 = ?
n
⎛
( x i – M ) 2⎞
⎜
⎟
oui
i------------------------------=1
⎜
⎟ = χ2
n ≤ 30
L
n
2
⎜
⎟
∑
⎜
⎝
σ
⎟
⎠
Statistique appliquée à la gestion
χ2
χ2
ν = n ; α1
ν = n ; α2
• K 1 = ------------------------ ; K 2 = -----------------------n
n
• valeurs de χ2 lues sur la table du χ2, pour ν = n
degrés de liberté et α1 = 1 – α/2 et α2 = α/2
l’échantillon
non
2
[ 2n – 3 – t α ⁄ 2 ]
• K 1 = ---------------------------------------------2n
2
[ 2n – 3 + t
]
α
⁄
2
• K 2 = ---------------------------------------------2n
• Valeur tα/2 lue sur la table 3-C
P(T>tα/2) = α/2
P ( K 1 σ 2 < s n2 < K 2 σ 2 ) = 1 – α
...ponctuelle
2
σ̂ = ?
2
2
ns
σ̂ = -----------n–1
se pose un problème d’estimation ...
...par intervalle de confiance
Problème: Quelle «fourchette» de valeurs de σ2
«attendre» dans la population-mère?
P ( σ 12 < σ 2 < σ 22 ) = 1 – α → σ 12 = ? ; σ 22 =
?
n
oui
⎛
2⎞
⎜ ∑ ( xi – m ) ⎟
⎜ =1
⎟
-⎟ = χ n2 – 1
L ⎜ i-------------------------------σ2
⎜
⎟
⎜
⎟
⎝
⎠
non
n ≤ 30
• K 1 = n ⁄ χ ν2 = n – 1 ; α
1
• K 2 = n ⁄ χ ν2 = n – 1 ; α
2
2
• valeurs de χ lues sur la table du χ2, pour ν = n – 1
degrés de liberté et α1 = 1
– α/2 et α1 = α/2
2n
• K 1 = --------------------------------------------2
[ 2n – 3 – t
α⁄2
]
2n
• K 2 = --------------------------------------------2
[ 2n – 3 – t
α⁄2
]
• Valeur tα/2 lue sur table 3-C
P(T>tα/2) = α/2
P ( K1 s 2 < σ 2 < K2 s2 ) = 1 – α
Téléchargement