1 Variables aléatoires et distributions de probabilité (1ière partie) & Variables aléatoires, lois et simulations en R (2ième partie) Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 2 Variable aléatoire, c’est quoi? • Variable aléatoire: est un nombre dépendant du résultat d’une expérience aléatoire. • Notation: X = variable aléatoire • Deux types: discrète, continue Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 3 Variable aléatoire discrète • Variable aléatoire discrète: une variable aléatoire est discrète si elle ne prend qu’un nombre fini ou dénombrable de valeurs • Exemples? • Notation: X = le nombre de résultats positifs, observations, etc. Après http://w3.mi.parisdescartes.fr/smel/cours/mp/node12.html Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 4 Variable aléatoire de Bernoulli Bernoulli Binomial • L'expérience la plus simple: seulement deux résultats possibles (variable aléatoire de Bernoulli X) • Expérience d'essais indépendants: deux résultats possibles pour chaque essai (essai de Bernoulli) avec X ~ Bernoulli(p) • De nombreux essais de Bernoulli: variable aléatoire binomiale avec X ~ Bin(n, p) • n = 1: variable aléatoire de Bernoulli = variable aléatoire binomiale Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 5 Variable aléatoire binomiale • Dans une série de n essais indépendants, chacun ayant seulement deux issues possibles (appelé "succès" et "échec"), avec la probabilité p succès et la probabilité q=1-p d'échec, la probabilité de succès en n essais est n! P(X) = p X (1 − p) n −X X!(n − X)! • avec n = nombre d'essais, X = résultats positifs (X ≤ n) • avex n! = n factorielle • avec pX = probabilité d'obtenir X succès indépendants €• avec (1 – p)(n - X) = probabilité d'obtenir (n – X) échecs avec probabilité (1 – p) • n! X!(n − X)! "n% ' #X& =$ = coefficient binomial • Pourquoi y at-il un X!? Après http://www.bf.refer.org/peche/chap2/chap24.html Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I € € Séance 4: 22 octobre 2012 6 Fonction de distribution de probabilité • Fonction de distribution de probabilité: fonction qui fournit la probabilité de chaque résultat possible en Ω ! obtenue pour chaque X avec P (X). • Histogramme: en général, un graphique de résumer le nombre d'essais résultant en un résultat particulier (TP1) http://en.wikipedia.org/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 7 Distribution de probabilité • Distribution de probabilité: assigne des probabilités pour toutes les valeurs possibles d'une variable aléatoire calculé avec P(X) ! Exigences: toutes les probabilités doit être comprise entre 0 et 1 inclus; la somme des probabilités des résultats doit être 1. Densité de probabilité Distribution cumulative http://www.stat.yale.edu/Courses/1997-98/101/binom.htm Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 8 Variable aléatoire de Poisson • Utilisé lorsque le cas le plus fréquent est égal à 0! • Le nombre d'occurrences d'un événement enregistré dans une zone fixe de l'échantillon ou au cours d'un intervalle de temps fixe (variable aléatoire de Poisson X) • X ~ Poisson(λ) avec λ = “rate parameter” (valeur moyenne d'occurrence) x λ −λ P(X) = e x! • avec X = observations • avec e = base du logarithme naturel (≈ 2.71828) (λ) http://www.dichotomistic.com/hierarchies_thermodynamics.html Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 € 9 Espérance E(X): discrète n E(X) = ∑ a1 p1 = a1 p1 + a2 p2 + ...+ an pn i=1 • avec ai = valeurs d'une variable aléatoire discrète • avec pi = probabilités de ai • … aucune idée de la variation Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 2 10 Variance σ ( X ): discrète €σ 2 ( X ) = E X − E ( X ) 2 = p % a − a p ( [ ] ∑ i' i ∑ i i * n i=1 n & i=1 2 ) • … une mesure de base de la quantité de chaque valeur X se distingue E(X). • Pourquoi à la puissance de 2? Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 11 Résumé: distributions discrètes " " " http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 12 Variable aléatoire continue • Variable aléatoire continue: une variable aléatoire est dite continue si elle peut prendre toutes les valeurs dans un intervalle donné (borné ou non borné). En règle générale, toutes les variables qui résultent d’une mesure sont de type continu. • Défi 1: infinité de résultats possibles (au sein de précision de la mesure!) • Défi 2: probabilité d'une valeur particulière Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 13 Variable aléatoire uniforme " 1 $ when a ≤ x ≤ b f (x) = # a − b $ 0 when x < a or x > b % • avec a = limite inférieure • avec b = limite supérieure http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 14 PDF et CDF • f(x) = fonction de distribution de probabilité (PDF): PDF d'une variable aléatoire continue est l'attribution de probabilités qu'une variable aléatoire continue X se produit dans un intervalle I [a, b] Non-negative integrable g Normalize by integral of g pdf f Integrate • F(x) = fonction de distribution cumulative (CDF): CDF d’une variable continue X est F(x) = P(X < x) ! Differentiate CDF F Cumulative probabilities provide, for each value x, the probability of a result less and one place that’s true is when it comes to defining expectations. Remember than or equal to X that for discrete variables E [X] ⌘ X xp(x) • PDF is the derivative (i.e., rate of change) For a continuous variable, we just substitute f (x) for p(x) and an integral for a sum: of the CDF. Z E [X] ⌘ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I x 1 xf (x)dx 1 All of the rules which we learned for discrete expectations still hold for continuous expectations. Let’s see how this works for the uniform-over-[0, 10] example. Séance 2012 Z 1 4: 22 octobre Z 10 E [X] = xf (x)dx = 1 x 0 1 1 1 ⇥ 2 ⇤10 1 1 dx = x 0 = (100 10 10 2 10 2 0) = 5 Notice that 5 is the mid-point of the interval [0, 10]. Suppose we had a uniform 15 Variable aléatoire normale (Gaussian) • La distribution de probabilité la plus familière • Constitue le fondement théorique de la régression linéaire et analyse de la variance (ANOVA) ! séances 9 & 10 • Defined by two parameters (µ, σ): ! E(X) = µ ! central tendency ! σ2(X) = σ2 ! spread around the central tendency • Variable aléatoire normale (“variable aléatoire de Gauss”): X ~ N(µ, σ) • Standard normal distribution: µ = 0 et σ = 1 ! Variable aléatoire normale standard (Z): E(Z) = 0, σ2 = 1 Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 16 PDF et CDF de la distribution normale Densité de probabilité Distribution cumulative http://http://en.wikipedia.org/ 1 f (x) = f (µ, σ ) = e σ 2π 2 1 " X−µ % − $ ' 2# σ & X F(x) = ∫ f (x)dx −∞ Pas de solution analytique existe, dans R: intégration numérique! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 17 Propriétés de la distribution normale • Three important properties: ! Somme: E(X+Y) = E(X) + E(Y); σ2(X + Y) = σ2(X) + σ2(Y) ! Shift and change of scale: X ~ N(µ, σ); Y = aX +b ! E(X) = aµ +b; σ2(Y) = a2σ2 ! Transformability: a = 1/σ and b = -1(µ/ σ) ! E(Y) = 0; σ2(Y)=1 !!! All operations applicable to a standard normal random variable can be applied to an normal random variable after transformation!!!!! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 18 Variable aléatoire log-normale • Variable aléatoire log-normale: variable aléatoire X avec ln(X) = Densité de probabilité variable aléatoire normale X ~ lnN(µ, σ): E(X) = e 2 µ +σ 2 2 σ (X) = e µ +σ 2 2 σ2 *e • Qu'advient-il de l'asymétrie lorsqu'elle est tracée sur une échelle logarithmique? Distribution cumulative http://http://en.wikipedia.org/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 19 D'autres importantes variables aléatoires Densité de probabilité: exponentielle • exponentielle Densité de probabilité: beta • student-t • Chi-square • F Densité de probabilité: student-t • gamma • inverse gamma • beta • …. tous utilisés plus tard dans le cours! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Densité de probabilité: gamma Séance 4: 22 octobre 2012 20 Résumé: distributions continues http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 21 Comment travailler aves les distributions dans R? • R a les fonctions de densité et de distribution intégré pendant environ 20 distributions de probabilité, comprenant " • “d”: PDF • “p”: CDF " " • “q”: quantiles • “r”: nombres aléatoires " Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 22 Exemple: R pour les distribution normales Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 23 Exemple: distribution binomiale • PROBLÈME: Supposez qu'il ya douze questions à choix multiples dans un quiz d’un cours d'anglais. Chaque question comporte cinq réponses possibles, et un seul d'entre eux est correcte. Trouver la probabilité d'avoir quatre ou moins réponses correctes si un étudiant tente de répondre à toutes les questions au hasard. • SOLUTION: Étant donné que seule une personne sur cinq réponses possibles est correcte, la probabilité de répondre correctement à une question par hasard est de 1/5 = 0,2. Nous pouvons trouver la probabilité d'avoir exactement 4 bonnes réponses par des tentatives aléatoires comme suit. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 24 Exemple: distribution de Poisson • PROBLÈME: S’il ya douze voitures traversant un pont par minute en moyenne, trouver la probabilité d'avoir dix-sept ou plus de voitures qui traversent le pont en une minute particulière. • SOLUTION: S’il ya douze voitures traversant un pont par minute en moyenne, la probabilité d'avoir dix-sept ou plus de voitures de traverser le pont en une minute particulière est 10,1%. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 25 Exemple: distribution uniforme • PROBLÈME: Sélectionnez dix nombres aléatoires entre un et trois. • SOLUTION: Il suffit d'appliquer la fonction runif pour générer des nombres aléatoires entre un et trois. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 26 Exemple: distribution normale • PROBLÈME: Supposez que les résultats d'un examen d'entrée au collège correspond une distribution normale. Par ailleurs, le score du test moyenne est 72 et l'écart-type est 15,2. Quel est le pourcentage d'étudiants obtenant 84 ou plus à l'examen? • SOLUTION: Le pourcentage d'étudiants obtenant 84 ou plus à l'examen d'entrée au collège est 21,5%. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 27 Exemple: distribution exponentielle • PROBLÈME: Supposez que la moyenne “check-out” d'un caissier de supermarché est trois minutes. Trouver la probabilité d'une “check-out” étant complété par le caissier en moins de deux minutes. • Solution: La probabilité de terminer une “check-out” en moins de deux minutes par le caissier est 48,7%. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 28 Lectures Lectures obligatoires • Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA. ! chaptre 2 • http://www.r-tutor.com/elementary-statistics/probability-distributions Lectures complémentaires • Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R – Maîtriser le langange, effectuer des analyses statistiques. ! Chapitre 10 • Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press. ! Chapitre 1.4 Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 8 octobre 2012