Variables aléatoires et distributions de probabilité (1ière partie

publicité
1
Variables aléatoires et distributions de
probabilité (1ière partie)
&
Variables aléatoires, lois et simulations
en R (2ième partie)
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
2 Variable aléatoire, c’est quoi?
•  Variable aléatoire: est un nombre dépendant du résultat d’une
expérience aléatoire.
•  Notation: X = variable aléatoire
•  Deux types: discrète, continue
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
3 Variable aléatoire discrète
•  Variable aléatoire discrète: une variable aléatoire est discrète si elle
ne prend qu’un nombre fini ou dénombrable de valeurs
•  Exemples?
•  Notation: X = le nombre de résultats positifs, observations, etc.
Après http://w3.mi.parisdescartes.fr/smel/cours/mp/node12.html
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
1
4 Variable aléatoire de Bernoulli


Bernoulli
Binomial
•  L'expérience la plus simple: seulement deux résultats possibles
(variable aléatoire de Bernoulli X)
•  Expérience d'essais indépendants: deux résultats possibles pour
chaque essai (essai de Bernoulli) avec X ~ Bernoulli(p)
•  De nombreux essais de Bernoulli: variable aléatoire binomiale avec
X ~ Bin(n, p)
•  n = 1: variable aléatoire de Bernoulli = variable aléatoire binomiale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
5 Variable aléatoire binomiale
•  Dans une série de n essais indépendants, chacun ayant
seulement deux issues possibles (appelé "succès" et "échec"),
avec la probabilité p succès et la probabilité q=1-p d'échec, la
probabilité de succès en n essais est
P(X) =
n!
p X (1 − p) n −X
X!(n − X)!
•  avec n = nombre d'essais, X = résultats positifs (X ≤ n)
•  avex n! = n factorielle
•  avec pX = probabilité d'obtenir X succès indépendants
€•  avec (1 – p)(n - X) = probabilité d'obtenir (n – X) échecs avec
probabilité (1 – p)
• 
n!
X!(n − X)!
"n%
'
#X&
=$
= coefficient binomial
•  Pourquoi y at-il un X!?
Après http://www.bf.refer.org/peche/chap2/chap24.html
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
€
Séance 4: 22 octobre 2012
€
6
Fonction de distribution de probabilité
•  Fonction de distribution de probabilité: fonction qui fournit la
probabilité de chaque résultat possible en Ω ! obtenue pour
chaque X avec P (X).
•  Histogramme: en général, un
graphique de résumer le nombre
d'essais résultant en un résultat
particulier (TP1)
http://en.wikipedia.org/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
2
7 Distribution de probabilité
•  Distribution de probabilité: assigne des probabilités pour toutes
les valeurs possibles d'une variable aléatoire calculé avec P(X)
! Exigences: toutes les probabilités doit être comprise entre 0
et 1 inclus; la somme des probabilités des résultats doit être 1.
Densité de probabilité
Distribution cumulative
http://www.stat.yale.edu/Courses/1997-98/101/binom.htm
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
8 Variable aléatoire de Poisson
•  Utilisé lorsque le cas le plus fréquent est égal à 0!
•  Le nombre d'occurrences d'un événement enregistré dans une zone
fixe de l'échantillon ou au cours d'un intervalle de temps fixe (variable
aléatoire de Poisson X)
•  X ~ Poisson(λ) avec λ = “rate parameter” (valeur moyenne d'occurrence)
λ x −λ
P(X) =
e
x!
•  avec X = observations
•  avec e = base du logarithme
naturel (≈ 2.71828)
(λ)
http://www.dichotomistic.com/hierarchies_thermodynamics.html
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
9 Espérance E(X): discrète
n
E(X) = ∑ a1 p1 = a1 p1 + a2 p2 + ...+ an pn
i=1
•  avec ai = valeurs d'une variable aléatoire discrète
•  avec pi = probabilités de ai
€
•  … aucune idée de la variation
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
3
2
10 Variance σ ( X ): discrète
€σ 2 ( X ) = E X − E ( X ) 2 = p % a − a p (
[
] ∑ i' i ∑ i i *
n
n
&
i=1
i=1
2
)
•  … une mesure de base de la quantité de chaque valeur X se
distingue E(X).
€
•  Pourquoi à la puissance de 2?
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
11 Résumé: distributions discrètes
"
"
"
http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
12 Variable aléatoire continue
•  Variable aléatoire continue: une variable aléatoire est dite continue
si elle peut prendre toutes les valeurs dans un intervalle donné (borné
ou non borné). En règle générale, toutes les variables qui résultent
d’une mesure sont de type continu.
•  Défi 1: infinité de résultats possibles (au sein de précision de la
mesure!)
•  Défi 2: probabilité d'une valeur particulière
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
4
13 Variable aléatoire uniforme
" 1
$
when a ≤ x ≤ b
f (x) = # a − b
$ 0 when x < a or x > b
%
•  avec a = limite inférieure
•  avec b = limite supérieure
http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
14 PDF et CDF
•  f(x) = fonction de distribution de probabilité
(PDF): PDF d'une variable aléatoire
continue est l'attribution de probabilités
qu'une variable aléatoire continue X se
produit dans un intervalle I [a, b]
Non-negative
integrable
g
Normalize by integral of g
pdf
f
Integrate
•  F(x) = fonction de distribution cumulative
(CDF): CDF d’une variable continue X
est F(x) = P(X < x)
!
Differentiate
CDF
F
Cumulative probabilities provide, for each value x, the probability of a result less
and one place that’s true is when it comes to defining expectations. Remember
than or equal to X
that for discrete variables
E [X] ⌘
X
xp(x)
•  PDF is the derivative (i.e., rate of change)
For a continuous variable, we just substitute f (x) for p(x) and an integral for a
sum:
of the CDF.
Z
E [X] ⌘
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
x
1
xf (x)dx
1
All of the rules which we learned for discrete expectations still hold for continuous expectations.
Let’s see how this works for the uniform-over-[0, 10] example.
Séance
2012
Z 1 4: 22 octobre
Z 10
E [X] =
xf (x)dx =
1
x
0
1
1 1 ⇥ 2 ⇤10
1 1
dx =
x 0 =
(100
10
10 2
10 2
0) = 5
Notice that 5 is the mid-point of the interval [0, 10]. Suppose we had a uniform
distribution over another interval, say (to be imaginative) [a, b]. What would the
expectation be? First, find the CDF F (x), from the same kind of reasoning we
used on the interval [0, 10]: the probability of an interval is its length, divided by
the total length. Then, find the pdf, f (x) = dF/dx; finally, get the expectation,
11
15 Variable aléatoire normale (Gaussian)
•  La distribution de probabilité la plus familière
•  Constitue le fondement théorique de la régression linéaire et analyse
de la variance (ANOVA) ! séances 9 & 10
•  Defined by two parameters (µ, σ):
! E(X) = µ ! central tendency
! σ2(X) = σ2 ! spread around the central tendency
•  Variable aléatoire normale (“variable aléatoire de Gauss”): X ~ N(µ, σ)
•  Standard normal distribution: µ = 0 et σ = 1
! Variable aléatoire normale standard (Z): E(Z) = 0, σ2 = 1
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
5
16 PDF et CDF de la distribution normale
Densité de probabilité
Distribution cumulative
http://http://en.wikipedia.org/
2
1 " X−µ %
'
σ &
− $
1
f (x) = f (µ, σ ) =
e 2#
σ 2π
X
F(x) =
∫ f (x)dx
−∞
Pas de solution analytique existe, dans R: intégration numérique!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
17 Propriétés de la distribution normale
•  Three important properties:
!  Somme: E(X+Y) = E(X) + E(Y); σ2(X + Y) = σ2(X) + σ2(Y)
!  Shift and change of scale: X ~ N(µ, σ); Y = aX +b ! E(X) = aµ
+b; σ2(Y) = a2σ2
!  Transformability: a = 1/σ and b = -1(µ/ σ) ! E(Y) = 0; σ2(Y)=1 !!!
All operations applicable to a standard normal random variable
can be applied to an normal random variable after
transformation!!!!!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
18 Variable aléatoire log-normale
•  Variable aléatoire log-normale: variable aléatoire X avec ln(X) =
Densité de probabilité
variable aléatoire normale X ~ lnN(µ, σ):
E(X) = e
µ +σ 2
2
σ 2 (X) = e
µ +σ 2
2
* eσ
2
•  Qu'advient-il de l'asymétrie
lorsqu'elle est tracée sur une
échelle logarithmique?
Distribution cumulative
http://http://en.wikipedia.org/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
6
19 D'autres importantes variables aléatoires
Densité de probabilité: exponentielle
•  exponentielle
Densité de probabilité: beta
•  student-t
•  Chi-square
•  F
Densité de probabilité: student-t
•  gamma
•  inverse gamma
•  beta
•  …. tous utilisés plus tard dans le cours!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Densité de probabilité: gamma
Séance 4: 22 octobre 2012
20 Résumé: distributions continues
http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
21
Séance 4: 22 octobre 2012
Comment travailler aves les distributions dans R?
•  R a les fonctions de densité et de distribution intégré
pendant environ 20 distributions de probabilité, comprenant
"
•  “d”: PDF
•  “p”: CDF
"
"
•  “q”: quantiles
•  “r”: nombres aléatoires
"
Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
7
22 Exemple: R pour les distribution normales
Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
23 Exemple: distribution binomiale
•  PROBLÈME: Supposez qu'il ya douze questions à choix
multiples dans un quiz d’un cours d'anglais. Chaque question
comporte cinq réponses possibles, et un seul d'entre eux est
correcte. Trouver la probabilité d'avoir quatre ou moins
réponses correctes si un étudiant tente de répondre à toutes
les questions au hasard.
•  SOLUTION: Étant donné que seule une personne sur cinq
réponses possibles est correcte, la probabilité de répondre
correctement à une question par hasard est de 1/5 = 0,2.
Nous pouvons trouver la probabilité d'avoir exactement 4
bonnes réponses par des tentatives aléatoires comme suit.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
24 Exemple: distribution de Poisson
•  PROBLÈME: S’il ya douze voitures traversant un pont par
minute en moyenne, trouver la probabilité d'avoir dix-sept ou
plus de voitures qui traversent le pont en une minute
particulière.
•  SOLUTION: S’il ya douze voitures traversant un pont par
minute en moyenne, la probabilité d'avoir dix-sept ou plus de
voitures de traverser le pont en une minute particulière est
10,1%.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
8
25 Exemple: distribution uniforme
•  PROBLÈME: Sélectionnez dix nombres aléatoires entre un
et trois.
•  SOLUTION: Il suffit d'appliquer la fonction runif pour générer
des nombres aléatoires entre un et trois.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
26 Exemple: distribution normale
•  PROBLÈME: Supposez que les résultats d'un examen
d'entrée au collège correspond une distribution normale. Par
ailleurs, le score du test moyenne est 72 et l'écart-type est
15,2. Quel est le pourcentage d'étudiants obtenant 84 ou plus
à l'examen?
•  SOLUTION: Le pourcentage d'étudiants obtenant 84 ou plus
à l'examen d'entrée au collège est 21,5%.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
27 Exemple: distribution exponentielle
•  PROBLÈME: Supposez que la moyenne “check-out” d'un
caissier de supermarché est trois minutes. Trouver la
probabilité d'une “check-out” étant complété par le caissier en
moins de deux minutes.
•  Solution: La probabilité de terminer une “check-out” en
moins de deux minutes par le caissier est 48,7%.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 22 octobre 2012
9
28 Lectures
Lectures obligatoires
•  Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer
Associates Inc., Sunderland, MA, USA.
! chaptre 2
•  http://www.r-tutor.com/elementary-statistics/probability-distributions
Lectures complémentaires
•  Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R –
Maîtriser le langange, effectuer des analyses statistiques.
! Chapitre 10
•  Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for
biologists. Cambridge University Press.
! Chapitre 1.4
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 4: 8 octobre 2012
10
Téléchargement