Statistique et probabilités

publicité
Statistique et probabilités
En classe de seconde
échantillon : liste de résultats de n
expériences identiques et indépendantes.
distribution des fréquences associée à
un échantillon : liste des fréquences des
différentes issues de cette expérience.
fluctuation d’échantillonnage : les
distributions des fréquences varient d’un
échantillon à l’autre d’une même
expérience.
L’ampleur des fluctuations des
distributions de fréquences calculées
sur des échantillons de taille n diminue
lorsque n augmente.
Simulation
Simuler une expérience, c’est choisir un
modèle de cette expérience puis simuler
ce modèle, pour produire une liste de
résultats assimilable à un échantillon de
cette expérience.
La simulation permet de disposer
d’échantillons de grande taille et
d’observer des phénomènes
appelant une explication dans le champ des
mathématiques.
En 1ère L :
enseignement obligatoire au
choix
 Expérience aléatoire
Eventualités
Evénements
 Loi de probabilité
 Probabilité d’un événement,
de l’événement contraire.
P(AB) + P(AB) = P(A) + P(B)
 Equiprobabilité
La simulation de l’expérience et le
phénomène de stabilisation des
fréquences observées lorsque le
nombre d’épreuves augmente, permet
de postuler l’existence d’un modèle
probabiliste, caractérisé par une loi de
probabilité.
Enoncé vulgarisé de la loi des
grands nombres
Pour une expérience aléatoire donnée,
dans le modèle défini par une loi de
probabilité P, les distributions de
fréquences obtenues sur des séries de
taille n sont très proches de P quand n
est grand.
En Terminale L :
enseignement de spécialité
Probabilités
 Arbres pondérés
 Conditionnement par un événement
de probabilité non nulle
 Indépendance de deux événements
 Formule des probabilités totales
 Epreuve de Bernoulli et loi binomiale
Tableaux et arbres
Différentes représentations
pour un même ensemble
Une enquête de marketing portant sur
le choix entre deux abonnements A et
B lors de l’achat d’un téléphone
portable et le statut de l’acheteur
(salarié ou non salarié) a conduit au
recueil des données de 9321 nouveaux
acheteurs, consignées dans le tableau
suivant:
Effectifs
A
B
Salarié
4 956
1 835
Non
salarié
1 862
668
Effectifs
A
B
Total
Salarié
4 956
1 835
6 791
Non
salarié
1 862
668
2 530
Total
6 818
2 503
9 321
4 956
6 818
2 503
S
A
1 862
B
1 835
668
NS
S
NS
4 956
A
S
6 791
2 530
1 835
NS
1 862
668
B
A
B
Chaque représentation (tableau ou
arbre) contient toute l’information et
permet de reconstituer n’importe
laquelle des autres
Fréquences des
événements
Fréquences
A
B
Total
Salarié
0,531
0,197
0,728
Non salarié
0,20
0,072
0,272
Total
0,731
0,269
1
Notations : f (A)= 0,728
f (S) = 0,272
f (A et S) = 0,531 etc……
Fréquences
conditionnelles
A
B
Total
Salarié
0,727
0,733
0,728
Non salarié
0,273
0,267
0,272
Total
1
1
1
Notations
: f A (S) = 0,727
f A (NS) = 0,273 etc……
Fréquences
conditionnelles
A
B
Total
Salarié
0,729
0,281
1
Non salarié
0,736
0,264
1
Total
0,731
0,269
1
Notations
: f S (A ) = 0,729
f NS (A ) = 0,736
etc……
Comment reconstituer un
tableau de fréquences à partir
d’un autre ?
f  A et S 
f A S  
f  A
f  A et S   f  A  f A S 
f S   f  A et S   f B et S 
f (A ) fA(S ) =f (AS )
fA(S)
S
f (A)
fA(NS)
NS
f (B)
fB(S)
S
A
B
fB(NS)
NS
S
f (S )
f (NS)
fS(A)
fS(B)
NS
fNS(A)
fNS(B)
A
B
A
B
f (S) fS (A) =f (AS)
Définition :
PA  S
Lorsque P A   0 , PA S  
P  A
P  A  S   PA S   P  A
Arbre pondéré
PA(S)
S P (A ) PA (S ) =P (AS )
A
P(A)
P(B)
PA(NS)
NS
PB(S)
S
B
PB(NS)
NS
Indépendance de deux
événements
Dans l’exemple étudié,
fA (S) = 0,726
f (S) = 0,728
f
A
(S)  f (S)
Existence d’un lien de causalité ?
Dans une urne il y a des pièces
indiscernables au toucher, de 1 ou 2 euros
(E1 ou E2), 30 sont françaises, 70 non
françaises (F ou NF).
Il y a 60 pièces de 1 euro, dont k sont
françaises, et 40 pièces de 2 euros, dont 30
– k sont françaises.
On choisit une pièce au hasard.
Est-il possible que le fait de savoir que la
pièce extraite est une pièce de 1 euro,
ne modifie pas la probabilité que la pièce
extraite soit française ?
E1
E2
Total
F
k
30 − k
30
NF
60 − k
10 + k
70
Total
60
40
100
E1
0,6
0,4
E2
k
60
F
k
160
NF
30  k
40
10  k
40
F
NF
Est - il possible que soit vérifiée la relation
PE1 F   P F  ?
k
30
PE1 F   P F  si et seulement si 
60 100
k
30
et 
si et seulement si k  18
60 100
Lorsque k = 18, savoir qu’il s’agit d’une pièce de
1 euro ne modifie pas la probabilité qu’elle soit
française.
Evénements indépendants
PE1 F   P F 
ou
P F E 1   P F   P E 1 
La notion d’indépendance entre deux
événements est une propriété
numérique à l’intérieur du modèle
probabiliste.
Dans l’exemple précédent, supposons que le
nombre total de pièces soit K.
n1 : nombre de pièces de 1 euro,
nF : nombre de pièces françaises
nF,1 : nombre de pièces françaises de 1 euro
nF ,1 nF
PE1 F   P F  

n1
K
c' est - à - dire : K  nF ,1  nF  n1
Lorsque K est un nombre premier,
(par exemple K = 101 au lieu de K = 100)
si K  nF,1 =nF n1, alors
soit nF = K (toutes les pièces sont
françaises)
soit n1 = K (toutes les pièces sont de 1
euro)
 Si nF = K
E1
F
nF,1
NF
0
Total
nF,1
E2
K
 nF,1
0
K
nF,1
PE1 F   P F 
Total
K
0
K
 Si n1 = K
E1
E2
Total
F
n F,1
0
n F,1
NF
K n F,1
0
Total
K
0
PE1 F   P F 
K
 n F,1
K
Statistique
Adéquation d’une série de
données à une loi équirépartie
En 1ère L
L’équiprobabilité : une hypothèse
parmi d’autres pour proposer un
modèle
Modèles issus d’une observation
expérimentale
Objectif:
sensibiliser les élèves au problème
de la validation d’un modèle
Exemple :
lancé d’un dé à 6 faces.
Les résultats obtenus dans
des conditions normales
d’utilisation de ce dé sont-ils
compatibles avec le modèle
d’équiprobabilité sur
l’ensemble {1, 2, 3, 4, 5, 6}
?
On lance n fois de suite ce dé.
On dispose d’un échantillon de taille n
de cette épreuve aléatoire.
Cet échantillon peut-il être considéré
comme un échantillon de taille n de la
loi équirépartie sur l’ensemble {1, 2,
3, 4, 5, 6} ?
Critère de compatibilité entre une distribution
de fréquences et la loi équirépartie.
Distance entre une distribution de
fréquences {f1, f2, .., f6} et la loi
équirépartie sur {1, 2, .., 6}
2
2
1
1
1



d   f1     f2   ....   f6  
6
6
6



2
2
Les données seront considérées comme
incompatibles avec la loi équirépartie si d obs2
est supérieur à une valeur seuil à définir.
d
2
est soumise à la fluctuation
d’échantillonnage
On simule N échantillons de n tirages
équiprobables dans {1, 2, 3, 4, 5, 6}.
Série de N valeurs de d 2 dans le modèle
équiréparti.
Le 9ème décile de cette série, noté D9 : la plus
petite valeur de la série telle que au moins
90% des valeurs soient dans l’intervalle [0;
D9]
Prendre D9 comme seuil de compatibilité
c’est adopter la règle de décision :
si dobs2 > D9 : refuser l’hypothèse
d’équiprobabilité
si dobs2  D9 : ne pas refuser
l’hypothèse d’équiprobabilité
En fait, la seule décision qu’on puisse prendre
c’est de refuser l’hypothèse d’équiprobabilité.
Ne pas la refuser ne revient pas à la valider.
Le risque d’erreur vient de ce que dobs2 peut
être supérieur à D9 même si le dé est
équilibré. (fluctuation d’échantillonnage)
Les données simulées qui aboutissent à
ce seuil de décision indiquent que cette
situation se produit dans 10% des
échantillons d’une loi équirépartie.
la marge d’erreur est 10%.
Prendre le 19ème vingtile, noté V19 (la plus
petite valeur de la série telle que au moins
95% des valeurs soient dans l’intervalle
[0; V19]) comme seuil décisionnel conduit
au risque d’erreur de 5%.
Prendre le 99ème centile comme seuil
décisionnel conduit au risque d’erreur de 1%.
Abaisser le seuil de risque revient à relever le
seuil entre petites et grandes valeurs de d² .
On peut être amené à refuser l’hypothèse
d’équiprobabilité au seuil de 10% et à ne pas
la refuser au seuil de 5% ou de 1%.
Expérience
1
2
3
4
5
6
0,215
0,155
0,207
0,115
0,17
0,13
dobs  0,0081
2
0
0,002 0,004 0,006 0,008
0,01
0,012 0,014 0,016 0,018
D9
dobs  0,0081
2
V19
0,02
D9  dobs  V19
2
Dans ce cas, au vu des résultats
expérimentaux, et en appliquant la règle
décisionnelle choisie :
au seuil de risque de 10% , l’hypothèse
d’équiprobabilité doit être refusée;
au seuil de risque de 5%, on peut la
maintenir. Elle n’est pas, pour autant,
validée.
Formule des probabilités totales
P A  P A S   P A S 
Lorsque PS   0 et PS   0 ,
P A  PS  A  PS   PS  A  PS 
Fréquences
conditionnelles
A
B
Total
Salarié
0,727
0,733
0,728
Non salarié
0,273
0,267
0,272
Total
1
1
1
f (A) = x
f (A et S) = y
f (B) = 1- x
f (B et S) = 0,728 - y
y=x0,727 et
0,728 – y = (1-x)0,733
Téléchargement