Aucun titre de diapositive

publicité
Statistique
Étude d’un caractère
Présentation des résultats
Calcul des indicateurs
Interprétation
Étude simultanée de deux caractères
Tableau de contingence
Conditionnement
Ajustement
1
Étude d’un caractère
1. Tri des données
Utilisation des outils
Diagramme en tiges et feuilles
2
Soit une série de 45 valeurs de taux d’hémoglobine (en g.L1)
105, 120, 125, 126, 126, 130, 132, 133, 134, 135, 138, 138,
141, 144, 146, 148, 148, 148, 149, 150, 150, 150, 151, 151,
153, 153, 154, 154, 155, 156, 156, 158, 160, 160, ….., 179
Médiane
Tige
Feuilles
10
5
1
11
1
12
0
5
6
6
5
13
0
2
3
4
5
8
8
12
14
1
4
6
8
8
8
9
19
15
0
0
0
1
1
3
3
4
4
16
0
0
3
4
4
5
6
8
8
17
0
2
2
9
5
6
6
8
32
41
45
Quartiles : 1er quartile : la plus petite valeur observée telle que,
au moins 25% des données lui soient inférieures ou égales.
Site Euler : Lexique et Fiches n° 470
3
2. Caractérisation d’une série statistique
Indicateur de centralité
Indicateur de dispersion
Médiane
Quantiles, intervalle
interquartile…..
Moyenne
Écart type
4
Tige
10
Feuilles
5
1
11
1
12
0
5
6
6
5
13
0
2
3
4
5
8
8
12
14
1
4
6
8
8
8
9
19
15
0
0
0
1
1
3
3
4
4
16
0
0
3
4
4
5
6
8
8
17
0
2
2
9
5
6
6
8
32
41
45
Diagramme en boîte
Fiches Euler :
470 – 1460 –
1461
min
D1
Q1
me Q3
D9
max
5
Comparaison de 2 séries
6
Séries statistiques à deux variables
1. Deux variables qualitatives : étude fréquentielle
Groupe sanguin et facteur Rhésus
(10 000 naissances dans des maternités de France)
effectifs
O
A
B
AB
Total
R
3 566
3 968
753
385
8672
R–
576
578
110
64
1328
Total
4142
4546
863
449
10 000
Fréquences par rapport à la population totale
fréquences
O
A
B
AB
Total
R
0,3566
0,3968
0,0753
0,0385
0,8672
R–
0,0576
0,0578
0,0110
0,0064
0,1328
Total
0,4142
0,4546
0,0863
0,0449
1
Fréquences marginales : f (O) = 0,4142
f (R+) = 0,8672
Fréquences partielles ou conjointes : f (O 
R )
= 0,3566
7
Fréquences conditionnelles
Fréquences par rapport à une sous - population
fréquences
O
A
B
AB
Total
R
0,3566
0,3968
0,0753
0,0385
0,8672
R–
0,0576
0,0578
0,011
0,0064
0,1328
Total
0,4142
0,4546
0,0863
0,0449
1
Fréquence de R+ sachant O :
Conséquence :
Fréquence de O sachant R+:



0,3566

fO  R  

f O 
0,4142


f O  R   f O R  f O 
f O R
f  O  
R

f O R

f O R


 
f R
  0,3566
0,8672
  fR  O  f R  
8
Arbre de répartition des fréquences
O
f O R  
R+ f (OR+) =f O(R+)f (O)
R-
f (O)
A
R+
RB
R+
RR+
AB
R9
2. Deux variables quantitatives
Nuage de points, point moyen
Ajustement
Sur chaque individu d’une population de n individus, on
mesure deux variables, x et y.
Les valeurs prises par x et y pour un individu donné sont
notées xi et yi.
On cherche s’il existe une relation simple entre x et y.
Exemple
10
Probabilités
Introduction : simulation d’épreuves aléatoires et
fluctuation d’échantillonnage
Existence d’un modèle théorique, loi de probabilité
Conditionnement et indépendance
11
Nombre
1. Existence d’un modèle théorique
de Filles
F ............................ 4
F
familles de 4 enfants :
F
nombre de filles
G ............................ 3
F ............................ 3
G
F
G ............................ 2
F ............................ 3
F
Simulation
G ............................ 2
G
F ............................ 2
G
G ............................ 1
F ............................ 3
F
F
probabilités
0
16
 0,0625
G ............................ 1
F ............................ 2
F
G
1
F ............................ 2
G
G
Valeurs possibles
G ............................ 2
4
 0,25
F ............................ 1
G
1
1
G ............................ 1
G ............................ 0
2
3
8
 0,375
3
1
4
 0,25
4
1
16
 0,0625
12
2. Probabilités conditionnelles
Groupes sanguins et facteur rhésus
O
A
B
AB
Total
R
3566
3968
753
384
8672
R–
576
578
110
64
1328
Total
4142
4546
863
449
10 000
Choix d’une personne au hasard dans la population
P(O  R) = 0,3566

P O R
0,3566

+

Probabilité de R sachant O : PO R 
PO 
0,4142
P(O) = 0,4142
P(R) = 0,8672
Conséquence :

 

POR    PO R    P O 
Propriété : La probabilité sachant O est une nouvelle
probabilité sur le même univers.
Fiches Euler : 326 - 436
13
3. Indépendance
Fréquences conjointes et fréquences marginales
fréquences
O
A
B
AB
Total
R
0,3566
0,3968
0,0753
0,0385
0,8672
R–
0,0576
0,0578
0,011
0,0064
0,1328
Total
0,4142
0,4546
0,0863
0,0449
1
Fréquences conditionnelles, selon le
groupe sanguin
Fréquences conditionnelles, selon le
facteur rhésus
O
A
B
AB
Total
fRH+(...)
0,411
0,458
0,087
0,044
1
fRH–(...)
0,434
0,435
0,083
0,048
1
f RH+ (O)  f (O)
fO(...)
fA(...)
fB(...)
fAB(...)
RH+
0,861
0,873
0,873
0,857
RH–
0,139
0,127
0,127
0,143
Total
1
1
1
1
f O (RH+)  f (RH+)
14
Définition de l’indépendance
Deux événements A et B, tels que P(A)  0 et P(B)  0 sont
indépendants si et seulement si PB(A) = P(A).
La réalisation de B ne modifie pas la valeur de la probabilité de A.
Soit deux événements A et B, tels que P(A)  0 et P(B)  0.
PB A   PA  
PA  B 
PB 
 PA 
PA  B   PA   PB   PB  
PB A   PA   PA  B   PA   PB 
PA  B 
PA 
PB A   PA   PA B   PB 
Deux événements A et B, tels que P(A)  0 et P(B)  0 sont
indépendants si et seulement si P (AB) = P(A)P(B).
Fiche Euler : 446
15
Nombre de filles dans une famille de 4 enfants
A : « l’ainé est une fille »
B : « la famille compte
exactement deux filles »
PA  
1
PB  
3
2
PA B   PB 
3
PA B  
8
8
Les événements A et B sont indépendants.
C : « la famille compte
au moins deux filles »
PC  
11
16
7
PA C  
8
PA C   PC 
Les événements A et C ne sont pas indépendants
16
Arbre de probabilité
Deux tirages successifs dans une urne contenant 3 boules blanches
et deux boules noires.
1er cas : Tirages sans remise
1
2
3
B2

P B1  B 2
B1
1
5
2

N2

 

2
5
4
B2
1
3 1
   0,3
5 2
P B 2   P B1  B 2   P N1  B 2 
P B 2   0,6 
3
 
P B1  B 2  P B1  PB B 2
3
5
N1
1
4
N2
17
Deux tirages successifs dans une urne contenant 3 boules blanches
et deux boules noires.
2ème cas : Tirages avec remise
3
5
3
B2
  
B1
2
5
5
N2


1
PB B 2 
3
2
5
 

P B 2  P B1  B 2  P N1  B 2  0,6
5
5
5
 0,6
B2
N1
2
3
Tirages indépendants
N2
18
Application : Test de dépistage
On dispose d’un test de dépistage pour une maladie qui peut
affecter les individus d’une certaine population.
Événements :
M : « être malade »
T
+
: « présenter un test positif »
T – : « présenter un test négatif »
Malades
Non Malades
Test Positif
Vrais Positifs
Faux Positifs
Test Négatif
Faux
Négatifs
Vrais
Négatifs
Total
Total
19
Étalonnage : données statistiques et définition d’un modèle
Prévalence : p = P(M)
 

Spécificité : PM T 
Sensibilité : PM T
Utilisation du test et calcul de probabilités
Comment interpréter le résultat d’un test qui aurait été pratiqué
sur un individu appartenant à la population considérée ?
Quelle est la probabilité, sachant que le test est positif, d’être
malade ?
Valeur Prédictive Positive : PT  M
Quelle est la probabilité, sachant que le test est négatif, de n’être
pas malade ?
Valeur Prédictive négative : PT  M

20
 
 P T  
Sensibilité : S  PM T 
e
Spécificité : S p
M
Prévalence : p = P(M)
S
T
e
Valeur Prédictive Positive : PT  M

P M T
VPP  P  M 

T
P T
 

VPP 
e
1S
e
p
T
T

p
S
e


 Sp  p  Sp
VPN 
S
Sp  p  Sp
e

 Sp  p  Sp
Un exemple
T
p
p  Se

M
S
VPP 

p  S  1  p  1  S
e
1S
1 p

p S
M
p

Valeur Prédictive Négative : PT  M
p  VPP(p) est croissante
p  VPN(p) est décroissante21
Dépendance ou causalité
L’indépendance :
une propriété numérique du modèle probabiliste choisi.
Lancer d’un dé à 6 faces.
Les faces 1 et 2 sont blanches, les faces 3, 4, 5 et 6 sont rouges
A: « numéro pair » et B : « face blanche »
1er cas : modèle équiprobable
1
P(A) = ,
2
P(B) = 1 ,
3
P(AB) =
1
6
2ième cas
P(AB) = P(A)P(B)
A et B sont
indépendants
p1 = p2 = p3 = p4 = p5 = 0,165 et p6 = 0,175
P(AB)  P(A)P(B)
P(A) = 0,33 + 0,175 = 0,505
A et B ne sont pas
indépendants
P(B) = 0,33 , P(AB) = 0,165
P(A)P(B) = 0,16665
22
Téléchargement