Aire et probabilités 1. Passage d’une loi discrète à une loi continue : loi uniforme Nous allons généraliser la loi équirépartie sur un ensemble fini, pour laquelle les probabilités des éléments de l’ensemble sont égales, à un ensemble infini. On choisit au hasard un nombre dans [0 ;1[ ( on considère sur cet intervalle la loi équirépartie ) Quelle est la probabilité que ce nombre soit égal à π ? à π/4 ( π/4 ≈ 0,785398163397…) ? Ces deux probabilités sont nulles, La première parce que l’événement « obtenir π » est impossible, ( π n’est pas dans cet intervalle ) La deuxième parce que l’événement « obtenir un nombre égal à π/4 » est réduit à un nombre réel et qu’il faudrait obtenir la coïncidence d’une infinité de décimales. On ne pourra écrire qu’un nombre fini de décimales. Cela revient à choisir un intervalle auquel π/4 appartient Intéressons nous à la probabilité d’obtenir un nombre « proche » de π/4 Considérons par exemple, l’ensemble E10 des nombres dont l’écriture décimale comporte 10 chiffres au plus , dans [0, 1[. On choisit au hasard un nombre dans E10. Ce choix fait au hasard nous amène à considérer la loi uniforme discrète sur [0;1[ . Comme E10 est fini, qu’il y a 1010 éléments dans E10 , la loi uniforme attribue à chacun de ces nombres la probabilité 10-10 d’être choisi. Soit I = [0,7853981630 ; 0,7853981640 [ intervalle contenant π/4 On considère l’événement A :« choisir un nombre de E10 dans I ». Il y a exactement 10 nombres de E10 dans I, donc p( A ) = 10x 10-10 ou encore : nombre d éléments de I et de E10 p (A ) = nombre d'éléments de E10 p ( A ) = [(0,7853981640 - 0,7853981630) x 1010 ] x 10-10 p( A ) = ( 0,7853981640 - 0,7853981630 ) p ( A ) = 10-9 Généralisons : Soient a et b deux réels de Ek, ensemble des nombres de [0, 1[ dont l’écriture décimale comporte k décimales, a< b et l’ intervalle I = [a, b[ Il y a 10k éléments dans Ek A :« choisir un nombre de Ek dans I ». p (A ) = nombre d'éléments de I et de Ek = [( b – a ) x 10k ] x 10-k nombre d'éléments de Ek p (A ) = b - a La probabilité de choisir un nombre « proche » de π/4 n’est pas nulle, mais ne peut pas s’obtenir à partir de la probabilité des éléments du voisinage de π/4 , car ils ont tous, tout comme π/4, une probabilité nulle . Pour définir le choix au hasard d’un réel dans [0 ;1[, on ne peut plus utiliser la probabilité de chaque élément de l’intervalle Pour les réels de [0 ; 1[, une loi de probabilité sera caractérisée non plus par la probabilité des éléments mais par celle de ses intervalles. Soit X la variable aléatoire égale au nombre choisi, pour tout nombre xi de [0, 1 [, p (X = xi ) = 0 La fonction de répartition Fx(x) = p( X ≤ x ) devient alors une fonction continue sur IR, il n’ y a plus « les sauts » correspondants aux p(X=xi )≠0 . X(Ω) n’est pas un ensemble dénombrable. ( Si X ( Ω ) était dénombrable, et si pour tout xi on avait p(X= xi )= 0 alors 1= p( Ω) = p(Xxi ) =0 ) xi Il faut donc abandonner absolument le symbole Σ (passage au continu ) 2. Aire sous la courbe et histogramme On étudie les salaires en dollars de 98 canadiens âgés de 15 ans et plus, ayant travaillé à plein temps en 1996. Les salaires sont connus avec une précision égale au salaires en fréquences centime de dollars. Les salaires ont été regroupés en classes d’amplitude 1 millier de dollars. Soit X la variable aléatoire égale au salaire d’un individu . . En physique la densité est définie comme le rapport de la masse d’un corps à sa longueur, son aire ou son volume. De même on peut définir la densité de la loi de probabilité comme le rapport de la probabilité de se trouver dans un intervalle et la longueur de cet intervalle : p(x 0 x x 0 ) , que l’on approche par la fréquence par unité d’amplitude. La densité d’une classe est égale à la hauteur du rectangle de l’histogramme représentant cette classe. L’histogramme des fréquences permet d’approcher la densité de la loi de probabilité suivie par le phénomène étudié On trace l’histogramme des fréquences, les données étant classées en intervalle d’amplitude une unité .( α = 1 ) . milliers de $ [26;27[ [27;28[ [28;29[ [29;30[ [30;31[ [31;32[ [32;33[ [33;34[ [34;35[ [35;36[ [36;37[ [37;38[ [38;39[ [39;40[ [40;41[ [41;42[ [42;43[ [43;44[ [44;45[ [45;46[ [46;47[ [47;48[ [48;49[ [49;50[ [50;51[ [51;52[ [52;53[ [53;54[ [54;55[ [55;56[ [56;57[ 0,000 0,010 0,010 0,020 0,020 0,020 0,031 0,031 0,041 0,041 0,041 0,051 0,051 0,061 0,061 0,061 0,061 0,051 0,051 0,051 0,041 0,031 0,031 0,031 0,020 0,020 0,020 0,020 0,010 0,010 0,000 histogramme des fréquences 0,08 0,07 densités 0,06 0,05 0,04 0,03 0,02 0,01 55 52 49 46 43 40 37 34 31 28 25 0 L’histogramme donne une approximation de la courbe de la densité théorique 0,07 0,06 densités 0,05 0,04 0,03 0,02 0,01 0 25 30 35 40 45 50 55 60 On aimerait améliorer l’estimation de la densité Soit X la variable aléatoire égale au salaire d’un individu . X prend toutes les valeurs d’un intervalle, X peut être considérée comme une variable aléatoire continue et donc on désire estimer la densité par une fonction continue sur l’intervalle Le but est donc de trouver une fonction f continue sur l’intervalle I = [a, b[ ou [a, b] ( ici [25, 57] ) dont la courbe représentative soit très proche de l’histogramme des fréquences Exemples : ajout d’une courbe de tendance Fonction polynomiale 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 -0,01 26 31 36 41 46 51 56 -0,02 Loi normale associée 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 55 52 49 46 43 40 37 34 31 28 25 0 1. Calculs d’aire et probabilités Pour déterminer le pourcentage des salariés qui ont un salaire inférieur à 40 milliers de dollars, on ajoute les fréquences des 14 premières classes, ce qui correspond à la somme des aires des 14 premiers rectangles . Si on cherche le pourcentage des salariés qui ont un salaire dans l’intervalle [36, 40 [ , on ajoute les fréquences des 4 classes, salaires en fréquences f.cumulées ( en vert sur le tableau ) ce qui correspond à la milliers de $ somme des aires des 4 rectangles [26;27[ [27;28[ [28;29[ [29;30[ [30;31[ [31;32[ [32;33[ [33;34[ [34;35[ [35;36[ [36;37[ [37;38[ [38;39[ [39;40[ [40 ;41[ Remarque : La somme totale de ces aires des rectangles dessinés vaut 1 . 0 0,010 0,010 0,020 0,020 0,020 0,031 0,031 0,041 0,041 0,041 0,051 0,051 0,061 0,061 0 0,010 0,020 0,040 0,060 0,080 0,111 0,142 0,183 0,224 0,265 0,316 0,367 0,428 0,489 Supposons que l’on ait ajusté une courbe de densité à l’histogramme. La probabilité qu’un salarié ait un salaire inférieur à 40 mille dollars correspond à l’aire sous la courbe de f , comprise entre les droites x = 0 et x = 40 . p ( X 40 ) = 0 Série1 56 53 50 47 44 41 38 35 32 Série2 29 40 26 0,070 0,060 0,050 0,040 0,030 0,020 0,010 0,000 f(x)dx La probabilité qu’un salarié ait un salaire compris entre 36 et 40 dollars correspond à l’aire sous la courbe de f , comprise entre les droites x = 36 et x = 40 56 54 52 50 48 46 44 42 40 38 36 0,070 0,060 0,050 0,040 0,030 0,020 0,010 0,000 40 p ( 36 X 40 ) = f(x)dx 36 Conclusion : La fonction f appelée densité de la loi p doit vérifier les conditions suivantes : f est continue sur [a,b] = I ( ou [a ; b[ ) Pour tout réel x de I, f(x) ≥ 0 b a f(x)dx = 1 p ( I ) = l’aire sous la courbe de f sur l’intervalle [a, b ] = Soit J un intervalle inclus dans I, J = [a’; b’], p( J ) = l’aire sous la courbe de f, délimitée par les droites d’équation x = a’ et x = b’ donc p (I ) = b' a' f(x)dx 2. Exemples Loi uniforme Choix d’un nombre au hasard dans un intervalle [a, b] ( Un générateur de nombres aléatoires fournit un échantillon : fonction ALEA, rand …) f est constante sur l’intervalle [a, b], posons f = k L’aire sous la courbe de f est celle d’un rectangle de longueur b – a et de hauteur k b L’aire sous la courbe est égale à f(x)dx = k ( b – a ) = 1 donc k = 1 ba a La densité vaut f (x) = 1 ba Loi exponentielle On a reporté dans le tableau suivant les temps d’attente en minute, du premier appel dans un standard téléphonique. On a représenté cette série par le diagramme en bâtons suivant : temps d'attente du premier appel fréquences 1,00 0,80 0,60 temps d'attente 0,40 0,20 15 13 11 9 7 5 3 1 0,00 On choisit de modéliser cette distribution par une loi exponentielle . temps d'attente fréquences en mn fi 1 0,80 2 0,68 3 0,65 4 0,45 5 0,42 6 0,40 7 0,34 8 0,32 9 0,24 10 0,22 11 0,18 12 0,12 13 0,09 14 0,08 15 0,06 temps d'attente du premier appel 1,00 0,80 0,60 0,40 0,20 0,00 temps d'attente Exponentiel (temps d'attente) 1 3 5 7 9 11 13 15 A l’aide d’un papier semi log ou en représentant lnf, ou ln 100f et en ajustant le nuage obtenu une droite de régression, on obtient une approximation de la densité On trouve f ≈ e (- 0,1729 t ) ajustement linéaire de la série ln 100 f 5,0000 4,5000 4,0000 3,5000 3,0000 2,5000 2,0000 1,5000 1,0000 0,5000 0,0000 ln 100fi Linéaire (ln 100fi ) y = -0,1729x + 4,6484 0 5 10 15 Ceci permet de déterminer la probabilité que le temps d’attente soit compris entre deux valeurs réelles a et b : b 0,1729 t a e dt