Distribution de probabilités Rappel: Liste empirique de fréquences, il s’agit de valeur observée dans l’échantillon. Distribution de probabilités :fréquence relative (idéale) avec laquelle on s’attend à voir les observations (valeur des variables) par rapport à un modèle THEORIQUE. L’idée est de comparer les données empiriques avec un modèle théorique et voir si ça colle. Dans une distribution empirique on se base sur le compte des valeurs observées Distribution de probabilité : on se base sur un modèle théorique. Quels sont les paramètres pouvant caractérisés une distribution théorique (afin de pouvoir reproduire les expériences, ou comparer les distributions) A) L’espace d’échantillonnage : : il s’agit de l’ensemble de tous les résultats possibles (d’une expérience). Chacun des résultats possibles est appelé : évènement simple Ex : je jette un dé ={1 ,2,3,4,5,6} Je tire un 1 ou 2 ou 3, … tirer une valeur est un évènement simple Ex :Avoir deux enfants ={FG,FF,GF,GG} Ex : combien de porcins vivants dans la portée ={0,1,2,3,4,… Avoir 1 porc vivant est un évènement simple. Le nombre d’évènements simples peut-être infini (pas borné à droite) Ex : peut appartenir à N (nombre des entiers positifs) B) Le deuxième paramètre dont on a besoin pour définir notre modèle théorique est la probabilité associée à chaque évènement simple. {0, 1, 2, 3, … {p0,p1,p2,p3,… p0 étant la probabilité de l’évènement simple 0. Rmk : Propriété d’une probabilité : 0<=pi<=1 n p i 1 Ex : Jet de dé ={1,2,3,4,5,6) p={1/6,1/6,…,1/6) pi 1 E1={1} et p1=1/6 i 1 E2={2} et p2=1/6 … Distribution empirique J’aurais lancé le dé un très grand nombre de fois et compter le nombre de fois que X=1, 2, 3,4,5,6 arrivait. Si on calcule la fréquence relative pour chaque valeur de X, si le modèle théorique est correct alors fi doit plus ou moins être égal à pi (Le but étant de trouver un modèle théorique qui s’adapte le mieux aux fréquences que l’on a trouvé) Variable Aléatoire Il s’agit d’une variable qui peut prendre différente valeurs avec une probabilité donnée. Ex : X représente le résultat d’un jet de dé, on peut dire que X est une variable aléatoire Ex : X est la taille des personnes d’un échantillon Les différentes valeurs que peut prendre la variable sont les évènements simples (on associe une valeur de la variable à un évènement simple) Ex : pour la taille, on prend tous les valeurs réelles entre 1m30 et 2m80. A chacune des valeurs possibles de la variable on associe une probabilité. On peut donc définir la distribution de probabilité de la variable X. On note aussi les variables aléatoires (va). On parle de variable aléatoire car on ajoute les notions de probabilités correspondantes aux valeurs de la variable. Exercice : Imaginons qu’une vache mette au monde un veau : Exp : Sexe du veau {0=femelle,1=mâle} On associe la probal p0 à 0 et la probabilité p1 à 1. De plus p0+p1=1 (définition d’une probabilité) => p0=p1=0.5 Rappel : On classe les variables aléatoires en fonction de leurs caractéristiques, on va donc marquer la différence entre les variables qualitatives (nominales ou ordinales) et quantitatives (continues [ex : poids] ou discrètes [ex : porcins vivants]). Variable qualitatives ordinales : Ex : 3 catégories en fonction de l’état de santé d’un cheval de course {Bon, Moyen, Mauvais} Qualitative nominale : Race des animaux par exemple. Pour chacun de ces types de variables on va choisir un modèle théorique de distribution de probabilité. Rmk : Espérance d’une variable aléatoire : (Expected value) : valeur moyenne à laquelle on s’attend si on répète un grand nombre de fois l’expérience. Il s’agit d’une valeur théorique (on n’est pas obligé de la retrouvé dans la distribution). Variables discrètes : On note l’espérance d’une variable discrète de la manière suivante : n E ( X ) xi p ( xi ) i 1 p(xi) : représente la probabilité de la variable aléatoire, si elle vaut 0, elle n’intervient pas dans l’espérance. Cette notation ressemble à celle d’une moyenne. p(xi) représentant la fréquence relative de xi, si on effectue l’expérience un très grand nombre de fois. Définition générale : Soit g() est une fonction réelle que l’on applique à x. Et j’ai une variable y qui a l’espace d’échantillonnage suivant : ={y0,y1,y2, …, yn} Auquel correspond un ensemble de proba : {p0,p1,p2,…, pn} Avec n qui tend vers l’infini. Rmk :Dans ce cas même si n tend vers l’infini, il s’agit de valeurs infinies dénombrables. Car on sait les compter par opposition aux valeurs indénombrables, que l’on ne sait pas compter. Exemple : On mesure 2 temps lors d’une course :t0 et t1, plus on veut être précis plus il faut diminuer l’intervalle t0 et t1. Combien y a-t-il de temps possible entre 10 et 11s. C’est impossible à dire, on pourra toujours trouver un intervalle de temps plus petit que celui choisit. Impossible à dénombrer entre deux valeurs proches. Pour appliquer g à x, en gros on remplace les xi d’au dessus par g(yi) : n E ( g (Y )) pi g ( y i ) i 1 Cette formule est intéressante, elle permet de retrouver le cas particulier de la moyenne où g(y)=1.y (g(y) est la fonction identité qui consiste à multiplier par 1 la variable y) E(Y)=p0.y0+p1.y1+…+pn.yn Il est également possible de calculer l’espérance de la moyenne des écarts à la moyenne (ce que l’on appelle communément la variance): En choisissant : g ( y) ( y u y ) 2 E ( g ( y )) E (( y u y ) 2 ) On élève les paramètres calculés via l’échantillon au rang de la population (à condition que le modèle théorique soit correct) E (( y u y ) 2 ) ( yi u y ) 2 pi y On retrouve une définition analogue de la variance pour la population. En résolvant le carré on peut très vite arrivé à la formule suivante : n n n i 1 i 1 i 1 yi2 pi 2 yi pi u y pi u y2 Rappel n p i 1 i 1 ; définition d’une distribution probabilité n n yi2 pi 2u y2 u y2 yi2 pi u y2 i 1 i 1 E (Y ) ( E (Y )) 2 2 Propriétés de l’espérance Si y est var alors si z a by Cas d’utilisation de ce z, convertir des unités en d’autres (ex : y est exprimé en inch, et je veux l’exprimer en centimètre, je vais utiliser z qui s’exprimera en cm, et qui sera défini par la conversion des inch vers les cm). E ( Z ) a bE (Y ) Alors u z a bu y Par contre, Var ( z ) b 2Var ( y ) z2 b 2 y2 Sigma représente l’écart type de la population (en général on utilise les lettres latines pour l’échantillon et les lettres grecques pour la population) Le paramètre a, n’influence pas la variance, par contre le coefficient b passe au carré, la variance n’est pas un opérateur linéaire. Construction des modèles théoriques Variable aléatoire discrète La distribution binomiale : On considère une expérience ne pouvant avoir que deux résultats possibles. Ex une vache va vêler le veau est soit M soit F. Ex : si on lance un dé, le résultat est pair ou impair. Si je tire une carte, c’est un cœur ou ce n’est pas un cœur On va alors parler de succès ou d’échec pour caractériser les deux résultats Le succès ou l’échec est une interprétation statistique, ex : diagnostiquer une maladie peut-être considéré comme un succès de l’expérience, pour le patient, ce n’est pas vraiment un succès. Si je réalise une expérience, je peux avoir soit un succès, soit un échec, et je peux établir la probabilité ps du succès ou pe de l’échec. X étant le résultat de l’expérience, il reste à définir l’espace d’échantillonnage {0,1} Si p est ps alors nonp = pe = 1-ps = 1-p. (on l’appelle parfois q) On calcule les paramètres de cette distribution de succès/echec : 2 u x pi xi (1 p).0 p.1 p i 1 2 x2 ( xi u x ) 2 pi (0 p) 2 (1 p) (1 p) 2 p i 1 p (1 p) (1 2 p p 2 ) p 2 p2 p3 p 2 p2 p3 p2 p p(1 p) On s’intéresse maintenant à la réalisation multiple de cette expérience : p sera donc la proportion de fois que l’on obtiendra un succès si on fait un très grand nombre de fois l’expérience : nombre de succès P( succes ) nombre de fois que l ' on fait l ' exp érience Dans le cas du dé, si on joue 24000 fois à pile ou face, on remarquera que p(succes)->0.5, donc p(echec)->0.5 Dans la distribution binomiale, X n’est plus la valeur 0 pour échec et 1 pour succès mais le nombre de fois que j’ai obtenu un succès en faisant n fois mon expérience. On répète cette expérience de façon indépendante (dans les mêmes conditions) Ex : si je tire une carte dans un jeu, je remet la carte avant de recommencer l’expérience. L’espace d’échantillonnage = {0,1,2,..., n} . On remarque qu’ici l’espace d’épreuve est borné, il n’est pas infini. Comment calculer la distribution de probabilité associée : Partons de l’exemple du jeu de carte : « Je tire cinq fois une carte dans un jeu de 52 cartes, à chaque tirage, je remets la carte, E est l’évènement avoir un cœur, la probabilité de E est de ¼, la probabilité de ne pas avoir un cœur, c’est à dire de non E est de ¾. Je défini X=0 comme étant la probabilité de n’obtenir aucun cœur après cinq expérience : P( E et E et E et E et E ) P(1 / 4) 5 Je défini X=1 comme étant la probabilité d’avoir un seul cœur après cinq tirages (en ayant remis la carte) P( X 1) P(( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E )) P( X 1) (1 / 4 (3 / 4) 4 ) ... 5(1 / 4)(3 / 4) 4 Je vois que l’ordre n’a pas d’importance, puisqu’on ne s’intéresse pas au moment du tirage pendant lequel on aura un cœur P( X 2) P(( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ( E et E et E et E et E ) ou ... ou .. On voit qu’ici on a plus que cinq possibilités il s’agit en fait de l’ensemble des listes que l’on peut fabriquer au moyen de 2 éléments parmi cinq lorsque l’ordre n’a pas d’importance. Cette valeur est égale à la combinaison de x éléments pris parmi n et n! l’analyse combinatoire définit cela comme étant : C nx (n x)! x! P( X x) C nx p x (1 p) n x Dans le cas qui nous intéresse : n! P( X x) p x (1 p) n x (n x)! x! Voilà donc la distribution de probabilité d’une distribution binomiale, distribution d’une variable X qui compte le nombre de succès parmi n expériences indépendantes ne pouvant avoir que deux résultats possibles dont le succès de réussite est associé à la probabilité p. X ~ Bin(n,p) : on lira que X suit une loi binomiale de n expérience avec une probabilité p de succès pour chacune des expériences. n et p étant les paramètres de la distribution. Ex : X ~ Bin(10, 0.80) X pourra prendre des valeurs de 0 à 10 représentants le nombre de succès que j’aurais obtenus parmi mes 10 expériences. {0,1,2,3,4,5,6,7,8,9,10} Quelle est la probabilité d’avoir 5 expériences positives parmi mes dix expériences : 10! P( X 5) (0.80) 5 (0.20) 5 0.0264 (5)!(5)! Graphique représentant la probabilité de toutes les valeurs prises par la variable X. 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 Ce graphique représente donc la distribution binomiale. Paramètres de la distribution binomiale 11 Si l’on considère toutes les valeurs que peut prendre X, on définit la variable X’ Je considère que le résultat de n expériences, c’est le résultat de la première + le résultat, de la seconde, … plus le résultat de la enième. X=X1+X2+X3+…+Xn L’expérience est la somme de petites expériences qui ont comme résultat 0 ou 1 Avec Xi peut prendre la valeur 0 (échec) ou 1 (succès) (variable binaire) u x E ( X 1 X 2 X 3 ... Xn) E ( X 1) E ( X 2) ... E ( Xn) Or, nous avons vu que E(X1), lors d’une expérience unique valait p u x p p p ... p np n x2 var( Xi) i 1 Parceque toutes les expériences sont indépendantes x2 var( X 1) var( X 2) var( X 3) ... var( Xn) p(1 p) p(1 p) ... p(1 p) np(1 p) Exemple : Etude de la prise de poids chez les chats castrés. Xi vaut 1 si le chat a pris du poids (succès) 0 si pas de prise de poids (échec) i représente l’expérience. Que vaut par exemple : P(X1=1)= p^1 (1-p)^1-1=p qu’on ne connait pas. 1 prend un chat dans un échantillon de 1 On prend un grand échantillon de chats castrés et on mesure ceux qui ont pris du poids. La fréquence relative nous donnera donc une idée sur la probabilité. chats qui ont grossi p 0.80 Dans ce cas de figure N Si on a dix chats castrés quel est la probabilité qu’au maximum cinq chats aient pris du poids. X est le nombre de chats qui ont pris du poids P(X<=5)=P(X=0 ou X=1 ou X=2 ou X=3 ou X=4 ou X=5) = P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4)+P(X=5) X représente donc le nombre total de succès quand on répète l’expérience N fois. => Le modèle binomiale devrait coller à X X ~ Bin(10,0.8) P(X<=5)=0+0+0+0.0007+0.006+0.026=0.0327 La probabilité d’en trouver peu qui ont pris du poids sur l’échantillon est faible, puisque la probabilité pour une expérience est grande. Rmk : La forme P(X<=5) est souvent appelée fonction de répartition pour X=x => F(X=5)=P(X<=5) F(X=x) est la probabilité que P(X<=x) La distribution de Poisson Si n est très grand (exemple une urne contenant des boules numérotées). Si le nombre de boules dans l’urne tend vers l’infini la probabilité de tirer une boule de numéro particulier est pratiquement nulle. Nous allons poser que lim n np , si cette limite existe elle donne un nombre réel. Repartons de la distribution binomiale : n! P( X x) p x q n x (n x)! x! n(n 1)( n 2)...( n x 1).( n x)( n x 1)...1 x p (1 p) n x (( n x)( n x 1)...1) x! n(n 1)( n 2)..( n x 1) x p (1 p) n x x! Je met n en évidence dans le premier membre 1 1 x 1 n x (1 )(1 )...(1 ) n 2 n xn p x (1 p) n x x! Si je fait tendre n vers l’infini il me reste (np) x .1.(1 p) n lim n f ( x) x! En n infini (1-p)^n-x vaut a peu près la même chose que (1-p)^n et (1-1/in)=1-0=1. lim n f ( x) x lim n (1 p) n x! Calculons cette limite en posant : 1 p y De plus multipliant l’exposant par p/p lim( 1 p ) lim( 1 p) n np p lim( 1 p) p 1 lim(( 1 ) y ) y Limite en n->l’infini => que p ->0 ce qui implique que y tend vers l’infini 1 Or lim y (1 ) y e y En replaçant la valeur de cette limite dans f(x) on obtient : x e x! Dans la pratique on remarquera que E(X) dans le cas d’une distribution de Poisson vaut ux Distribution qui s’applique lorsque X compte un nombre de succès qui interviennent au hasard et indépendamment dans le temps (ou l’espace) avec un taux moyen de u par unité de temps (ou d’espace). P( X x) X va compter le nombre d’évènements (qui ont un succès) Ex : caisse de magasin, la caisse est fermée mais les clients arrivent tout de même à un taux de 1 client/10min Ou encore (si dans l’espace) Le nombre de parasites qui se développent sur de la viande avariées avec un taux de u par m^2. Définition de cette distribution : {1,2,3,..., L’espace d’échantillonnage n’est pas borné, donc revient à prendre un nombre d’expérience égal à l’infini. (pas de maximum contrairement à la binomiale ou le maximum est n) e u x P( X x) u x! Paramètres : Si X ~ POIS(u) E(X)=u Var(X)=u Il s’agit d’une distribution assez rare où la variance suit la moyenne => si on a une grande moyenne on a de grands écarts. Ex : X ~ POIS(3.2) Quel est la probabilité de trouver 2 succès. On remplace dans la formule : e 3.2 P( X 2) 3.2 2 0.209 2 Comme il s’agit d’une probabilité : P(X ) 1 Distribution de probabilité de variables continues X est une variable indénombrable => est difficile à déterminer puisque qu’entre 0 et 1 on a déjà une infinité de valeurs possibles. Il peut donc s’agir de R ou de R+. Difficile de déterminer l’espace d’échantillonnage, il est en tout cas impossible de le lister. Ex : les données brutes de pélicans : Valeur qui représente l’épaisseur de l coquille, cette variable appartient à R+ On va donc considérer l’espace d’épreuve comme étant R+ Détermination de la probabilité associée Comme l’espace d’échantillonnage est impossible à lister, il est aussi très difficile de lister la fréquence à laquelle apparaisse chacune de ces valeurs non listables. Ex : si je fais un tir sur cible, la probabilité d’atteindre, le point de coordonnées (pi,sqrt(2)) est pratiquement nulle. Parler de probabilité dans le cas de variables continues n’a donc pas beaucoup de sens. On va plutôt parler de répartition de probabilité. En effet la probabilité que x (l’abscisse) soit plus petit que pi à de nouveau du sens. P(X<=x)=F(X) Pour tout x appartenant à [a,b] avec a<b P(x<=b)=P(x appartient à [a,b])+P(x<=a) P(x appartient à [a,b])=P(x<=b)-P(x<=a) =F(b)-F(a) Si je considère l’intervalle a,b très petit, compris entre x et x+deltax à la limite en deltax tend vers 0 je pourrais écrire que P(x appartient [x,x+dx])=F(x+dx)-F(x) Si je multiplie haut et bas par dx P(x appartient [x,x+dx])=F’(x)dx Cette fonction s’appelle la densité de probabilité. Pour obtenir cette densité de probabilité sur un intervalle plus grand, il suffit de calculer l’intégrale sur cet intervalle. P( x a, b) F ' ( x)dx ( x)dx b a a a ( x) é tan t la densité de probabilit é P(t , x) (t )dt F ( x) P( X x) x Comme les probabilités sont incalculables du au fait que l’espace d’échantillonnage est indénombrable, on va donc utiliser une fonction de probabilité que l’on appelle la densité de probabilité. Propriété : ( x) 0 ( x)dx 1 La surface sous tendue par la fonction de densité de probabilité vaut 1. Si ces propriétés ne sont pas respectées c’est que la fonction n’est pas une fonction de densité de probabilité. (x) Rmk : Différence entre la théorie et la pratique, en pratique on a jamais de distribution continue (du par exemple à la sensibilité des instruments de mesure) Dans le cas de la distribution discrète je peux calculer P(X=3) ou P(X=0) Dans le cas de la distribution continue je dois fixer un intervalle, exemple, rechercher la probabilité que les élèves se trouvent entre une taille de 1.70 et 1.80 Lorsque l’on calcule la probabilité sur l’intervalle [a,b] on utilise la formule suivante : P( x a, b) ( x)dx b a Propriété des distributions de probabilités continues : E ( X ) x ( x)dx u x On peut retrouver l’analogie avec les variables discrètes : n E ( X ) xi pi i 1 Les ordinateurs calculent d’ailleurs les intégrales au moyen de la formule des variables discrètes (c’est ce que l’on appelle la discrétisation de l’intégrale). Il faut aussi éviter de choisir des distributions de probabilité trop farfelue car dans ce cas, les intégrales peuvent donner des résultats infinis. Si on reprend la définition générale de l’espérance de E(g(x)) on peut écrire : E ( g ( x)) g ( x) ( x)dx si g ( x) 1 on retrouve u x g ( x) ( x u x ) 2 E ( g ( x)) ( x u x ) 2 ( x)dx