Aire et probabilités

publicité
Aire et probabilités
1. Passage d’une loi discrète à une loi continue : loi uniforme
Nous allons généraliser la loi équirépartie sur un ensemble fini, pour laquelle
les probabilités des éléments de l’ensemble sont égales, à un ensemble infini.
On choisit au hasard un nombre dans [0 ;1[ ( on considère sur cet intervalle la loi
équirépartie )
Quelle est la probabilité que ce nombre soit égal à π ?
à π/4 ( π/4 ≈ 0,785398163397…) ?
Ces deux probabilités sont nulles,
La première parce que l’événement « obtenir π » est impossible, ( π n’est pas dans cet intervalle )
La deuxième parce que l’événement « obtenir un nombre égal à π/4 » est réduit à un nombre réel et
qu’il faudrait obtenir la coïncidence d’une infinité de décimales. On ne pourra écrire qu’un nombre
fini de décimales.
Cela revient à choisir un intervalle auquel π/4 appartient
Intéressons nous à la probabilité d’obtenir un nombre « proche » de π/4
Considérons par exemple, l’ensemble E10 des nombres dont l’écriture décimale
comporte 10 chiffres au plus , dans [0, 1[.
On choisit au hasard un nombre dans E10.
Ce choix fait au hasard nous amène à considérer la loi uniforme discrète sur [0;1[ .
Comme E10 est fini, qu’il y a 1010 éléments dans E10 , la loi uniforme attribue à chacun de ces
nombres la probabilité 10-10 d’être choisi.
Soit I = [0,7853981630 ; 0,7853981640 [ intervalle contenant π/4
On considère l’événement A :« choisir un nombre de E10 dans I ».
Il y a exactement 10 nombres de E10 dans I, donc p( A ) = 10x 10-10
ou encore :
nombre d éléments de I et de E10
p (A ) =
nombre d'éléments de E10
p ( A ) = [(0,7853981640 - 0,7853981630) x 1010 ] x 10-10
p( A ) = ( 0,7853981640 - 0,7853981630 )
p ( A ) = 10-9
Généralisons :
Soient a et b deux réels de Ek, ensemble des nombres de [0, 1[ dont l’écriture décimale
comporte k décimales, a< b et l’ intervalle I = [a, b[
Il y a 10k éléments dans Ek
A :« choisir un nombre de Ek dans I ».
p (A ) = nombre d'éléments de I et de Ek = [( b – a ) x 10k ] x 10-k
nombre d'éléments de Ek
p (A ) = b - a
La probabilité de choisir un nombre « proche » de π/4 n’est pas nulle, mais
ne peut pas s’obtenir à partir de la probabilité des éléments du voisinage de
π/4 , car ils ont tous, tout comme π/4, une probabilité nulle .
Pour définir le choix au hasard d’un réel dans [0 ;1[, on ne peut plus utiliser
la probabilité de chaque élément de l’intervalle
Pour les réels de [0 ; 1[, une loi de probabilité sera caractérisée non plus par
la probabilité des éléments mais par celle de ses intervalles.
Soit X la variable aléatoire égale au nombre choisi, pour tout nombre xi de [0, 1 [,
p (X = xi ) = 0
La fonction de répartition Fx(x) = p( X ≤ x ) devient alors une fonction continue sur IR, il n’
y a plus « les sauts » correspondants aux p(X=xi )≠0 .
X(Ω) n’est pas un ensemble dénombrable.
( Si X ( Ω ) était dénombrable, et si pour tout xi on avait p(X= xi )= 0 alors
1= p( Ω) = p(Xxi ) =0 )
xi
Il faut donc abandonner absolument le symbole Σ
(passage au continu )
2. Aire sous la courbe et histogramme
On étudie les salaires en dollars de 98 canadiens âgés de 15 ans et plus, ayant
travaillé à plein temps en 1996.
Les salaires sont connus avec une précision égale au
salaires en fréquences
centime de dollars.
Les salaires ont été regroupés en classes d’amplitude 1 millier de
dollars.
Soit X la variable aléatoire égale au salaire d’un individu .
.
En physique la densité est définie comme le rapport de la
masse d’un corps à sa longueur, son aire ou son volume.
De même on peut définir la densité de la loi de
probabilité comme le rapport de la probabilité de se
trouver dans un intervalle et la longueur de cet
intervalle :
p(x 0  x x 0 )
,

que l’on approche par la fréquence par unité
d’amplitude.
La densité d’une classe est égale à la hauteur du
rectangle de l’histogramme représentant cette classe.
L’histogramme des fréquences permet d’approcher la
densité de la loi de probabilité suivie par le phénomène
étudié
On trace l’histogramme des fréquences, les données étant
classées en intervalle d’amplitude une unité .( α = 1 )
.
milliers de
$
[26;27[
[27;28[
[28;29[
[29;30[
[30;31[
[31;32[
[32;33[
[33;34[
[34;35[
[35;36[
[36;37[
[37;38[
[38;39[
[39;40[
[40;41[
[41;42[
[42;43[
[43;44[
[44;45[
[45;46[
[46;47[
[47;48[
[48;49[
[49;50[
[50;51[
[51;52[
[52;53[
[53;54[
[54;55[
[55;56[
[56;57[
0,000
0,010
0,010
0,020
0,020
0,020
0,031
0,031
0,041
0,041
0,041
0,051
0,051
0,061
0,061
0,061
0,061
0,051
0,051
0,051
0,041
0,031
0,031
0,031
0,020
0,020
0,020
0,020
0,010
0,010
0,000
histogramme des fréquences
0,08
0,07
densités
0,06
0,05
0,04
0,03
0,02
0,01
55
52
49
46
43
40
37
34
31
28
25
0
L’histogramme donne une approximation de la courbe de la densité théorique
0,07
0,06
densités
0,05
0,04
0,03
0,02
0,01
0
25
30
35
40
45
50
55
60
On aimerait améliorer l’estimation de la densité
Soit X la variable aléatoire égale au salaire d’un individu .
X prend toutes les valeurs d’un intervalle, X peut être considérée comme une variable
aléatoire continue et donc on désire estimer la densité par une fonction continue
sur l’intervalle
Le but est donc de trouver une fonction f continue sur l’intervalle I = [a, b[
ou [a, b]
( ici [25, 57] ) dont la courbe représentative soit très proche de l’histogramme
des fréquences
Exemples : ajout d’une courbe de tendance
Fonction polynomiale
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
-0,01 26
31
36
41
46
51
56
-0,02
Loi normale associée
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
55
52
49
46
43
40
37
34
31
28
25
0
1. Calculs d’aire et probabilités
Pour déterminer le pourcentage des salariés qui ont un salaire inférieur à 40 milliers de
dollars, on ajoute les fréquences des 14 premières classes, ce qui correspond à la somme
des aires des 14 premiers rectangles .
Si on cherche le pourcentage des salariés qui ont un salaire dans l’intervalle
[36, 40 [ , on ajoute les fréquences des 4 classes, salaires en fréquences f.cumulées
( en vert sur le tableau ) ce qui correspond à la
milliers de
$
somme des aires des 4 rectangles
[26;27[
[27;28[
[28;29[
[29;30[
[30;31[
[31;32[
[32;33[
[33;34[
[34;35[
[35;36[
[36;37[
[37;38[
[38;39[
[39;40[
[40 ;41[
Remarque :
La somme totale de ces aires des rectangles
dessinés vaut 1 .
0
0,010
0,010
0,020
0,020
0,020
0,031
0,031
0,041
0,041
0,041
0,051
0,051
0,061
0,061
0
0,010
0,020
0,040
0,060
0,080
0,111
0,142
0,183
0,224
0,265
0,316
0,367
0,428
0,489
Supposons que l’on ait ajusté une courbe de densité à l’histogramme.
La probabilité qu’un salarié ait un salaire inférieur à 40 mille dollars correspond
à l’aire sous la courbe de f , comprise entre les droites x = 0 et x = 40 .
p ( X  40 ) =
0
Série1
56
53
50
47
44
41
38
35
32
Série2
29
40
26
0,070
0,060
0,050
0,040
0,030
0,020
0,010
0,000
f(x)dx
La probabilité qu’un salarié ait un salaire compris entre 36 et 40 dollars correspond à
l’aire sous la courbe de f , comprise entre les droites x = 36 et x = 40
56
54
52
50
48
46
44
42
40
38
36
0,070
0,060
0,050
0,040
0,030
0,020
0,010
0,000
40
p ( 36  X  40 ) =  f(x)dx
36
Conclusion :
La fonction f appelée densité de la loi p doit vérifier les conditions suivantes :
 f est continue sur [a,b] = I ( ou [a ; b[ )
 Pour tout réel x de I, f(x) ≥ 0
b
a f(x)dx = 1

p ( I ) = l’aire sous la courbe de f sur l’intervalle [a, b ] =

Soit J un intervalle inclus dans I, J = [a’; b’], p( J ) = l’aire sous la courbe de f,
délimitée par les droites d’équation x = a’ et x = b’ donc p (I ) =
b'
a' f(x)dx
2. Exemples
Loi uniforme
Choix d’un nombre au hasard dans un intervalle [a, b]
( Un générateur de nombres aléatoires fournit un échantillon : fonction ALEA,
rand …)
f est constante sur l’intervalle [a, b], posons f = k
L’aire sous la courbe de f est celle d’un rectangle de longueur b – a et de hauteur
k
b
L’aire sous la courbe est égale à  f(x)dx = k ( b – a ) = 1 donc k = 1
ba
a
La densité vaut f (x) = 1
ba
Loi exponentielle
On a reporté dans le tableau suivant les temps d’attente en minute, du premier
appel dans un standard téléphonique.
On a représenté cette série par le diagramme en bâtons
suivant :
temps d'attente du premier appel
fréquences
1,00
0,80
0,60
temps d'attente
0,40
0,20
15
13
11
9
7
5
3
1
0,00
On choisit de modéliser cette distribution par une loi
exponentielle .
temps d'attente fréquences
en mn
fi
1
0,80
2
0,68
3
0,65
4
0,45
5
0,42
6
0,40
7
0,34
8
0,32
9
0,24
10
0,22
11
0,18
12
0,12
13
0,09
14
0,08
15
0,06
temps d'attente du premier appel
1,00
0,80
0,60
0,40
0,20
0,00
temps d'attente
Exponentiel
(temps
d'attente)
1
3
5
7
9
11 13 15
A l’aide d’un papier semi log ou en représentant lnf, ou ln 100f et en ajustant le
nuage obtenu une droite de régression, on obtient une approximation de la
densité
On trouve f ≈ e (- 0,1729 t )
ajustement linéaire de la série ln 100 f
5,0000
4,5000
4,0000
3,5000
3,0000
2,5000
2,0000
1,5000
1,0000
0,5000
0,0000
ln 100fi
Linéaire (ln 100fi )
y = -0,1729x + 4,6484
0
5
10
15
Ceci permet de déterminer la probabilité que le temps d’attente soit compris
entre deux valeurs réelles a et b :
b 0,1729 t
a e
dt
Téléchargement