Probabilités et Statistiques

publicité
Bagages en probabilités
et en statistiques
Benjamin Monmege
02 février 2012
Statistique descriptive
• Collection finie d’observations
• Description de cette collection à l’aide de
caractéristiques statistiques : moyenne,
médiane, effectifs, fréquences, mode,
maximum, minimum, variance, écart-type,
quantiles...
Itt
$45,000
f
'I
Moyenne, médiane et mode
$15,000
$10,000
4.+ARn1fMmcAL AVERAG6
$5,700
«1fiii
$5,000
$3,700
Imagi
ner d
es sit
dans
uatio
lesqu
ns
elles
avant
il est
ageux
l’une
d
e
prése
des t
nter
rois m
oyenn
es . . .
'iii M ....
..
$3,000
S2,000
How to lie with statistics, Darrel Huff 1954
Histogrammes
Moyenne = médiane
= mode
Probabilités vs. Statistiques
Probabilités
•
Statistiques
•
Mesure de l’incertitude
d’un phénomène
•
Étant donné un objet qui
Étant donné un ensemble de
génère des données, quelles
données, que peut-on dire
sont les propriétés
de l’objet qui génère ces
vérifiées par les données
données ?
en sortie ?
Données observées
Modélisation d’un
phénomène
•
Probas
Stats
Générateur de
données
Probabilités
• Univers (sample space)
• Évènement (event)
• Distribution de probabilité
• Continuité des probabilités
• Exemple de la distribution uniforme :
dénombrement
Exercice 1
On dispose de 6 tasses et de leurs
soucoupes : 2 sont rouges, 2 sont blanches et
2 sont noires. Si les tasses sont placées de
manière aléatoire sur les soucoupes, quelle
est la probabilité qu’aucune tasse ne soit sur
une soucoupe de la même couleur ?
Indépendance et
probabilités conditionnelles
• Évènements indépendants
• Probabilité conditionnelle
• Formule des probabilités totales
• Théorème de Bayes
Exercice 2
1. Quand deux évènements disjoints sont-ils
indépendants ?
2. Une pièce est lancée à plusieurs reprises.
Quelle est la probabilité qu’un jour ou
l’autre la pièce tombe sur face ?
Exercice 3
Un test médical pour une maladie a deux valeurs de
sortie possibles + et -. Les probabilités sont
D
Dc
+
0,009 0,099
-
0,001 0,891
1. Calculer les probabilités P(+|D) et P(-|Dc).
2. Supposons que vous alliez faire un test et obteniez un
résultat positif. Selon votre intuition, quelle est l'ordre
de grandeur de la probabilité que vous ayez la
maladie ? Faites le calcul pour vérifier votre intuition.
Exercice 4
Une famille est composée de deux enfants
(qui ne sont pas des jumeaux).
1. Quelle est la probabilité que les deux soient
des garçons, sachant qu’au moins un est un
garçon ?
2. Quelle est la probabilité que les deux soient
des garçons, sachant que le plus jeune des
deux enfants est un garçon ?
Variables aléatoires
• Variable aléatoire
• Fonction de distribution
• Variables discrètes vs. variables continues
• Vecteurs aléatoires : distributions
marginales, indépendance, probabilités
conditionnelles
Quelques notations...
• n : nombre de tirages d’une expérience
• i.i.d : indépendantes identiquement
distribuées. Se dit d’une suite de variables
aléatoires qui suivent toutes la même loi de
probabilité et sont deux à deux
indépendantes
Exemples
Discret
Variable
aléatoire
Vecteur
aléatoire
•
•
•
•
•
Uniforme discret
•
Multinomiale(n,p)
Bernoulli(p)
Binomiale(n,p)
Géométrique(p)
Continu
•
•
Uniforme(a,b)
Normal(μ,σ2)
Poisson(λ)
•
Normal(μ,Σ)
Exercice 5
Devant le peloton d'exécution, on vous propose un jeu avec deux urnes contenant des boules
bleues et rouges. Vous pouvez tirer deux boules, sans remise : si au moins une boule rouge est
tirée, vous êtes libre. En réalité, voici le contenu des urnes :
1
2
Imaginons que vous choisissez aléatoirement une des deux urnes pour tirer la première boule, et
que la balle tirée est bleue !
1.
Quelle est la chance que vous ayez choisi une urne par rapport à l'autre ?
2.
Si vous conservez la même urne pour le second tirage, quelle est votre chance de survie ?
3.
Pour votre deuxième tirage, avez-vous intérêt à tirer dans la même urne ou à en changer ?
Autres exemples de ce
phénomène
State of the art, 3
Problème de Monty Hall
http://www.youtube.com/watch?v=mhlc7peGlGg
This one is more difficu
Problème du démineur
Paramètres
• Espérance d’une variable aléatoire : mesurer
la moyenne
• Moments
• Variance et écart-type : mesurer la diffusion
autour de la moyenne
• Covariance et corrélation : à quel point deux
variables aléatoires sont reliées
• Cas multi-dimensionnel
Exemples
Espérance
Variance
Bernoulli(p)
p
p(1-p)
Binomiale(n,p)
np
np(1-p)
Géométrique(p)
1/p
(1-p)/p2
Poisson(λ)
λ
λ
Uniforme(a,b)
(a+b)/2
(b-a)2/12
Normal(μ,σ2)
μ
σ2
Multinomiale(n,p)
np
...
Normal(μ,Σ)
μ
Σ
Quand les statistiques
rentrent à nouveau
en jeu...
Estimer un paramètre à
partir d’un échantillon
Données
... ...
i.i.d
paramètre
Estimateur
Erreur
Convergent
Biais
Vitesse de
convergence ?
Non biaisé
ssi biais = 0
Exemple : Évaluer une
méthode de prédiction
• Supposons qu’on teste une méthode de
prédiction sur un ensemble de n cas. Soit
Xi=1 si la méthode échoue sur le cas i et
Xi=0 sinon. On peut voir Xi comme une
distribution de Bernoulli, avec moyenne p
inconnue (c’est le paramètre)
• Estimateur non biaisé : X =(X +...+X )/n
• Convergent ? Vitesse de convergence ?
n
1
n
Inégalités
• Inégalité de Markov
• Inégalité de Chebyshev
• Loi faible des grands nombres
• Application au problème de prédiction
• Inégalité de Hoeffding
• Application au problème de prédiction (bis)
Exercice 6
On cherche un estimateur pour la variance d'un
ensemble de données x1, ..., xn indépendantes
identiquement distribuées, suivant la loi d'une variable
aléatoire X, de moyenne µ.
2
2
((X1-µ) +...+(Xn-µ) )/n. Cela
1. Étudier l'estimateur
semble-t-il un estimateur raisonnable ?
vous
2. On considère l'estimateur ((X1-Xn)2+...+(Xn-Xn)2)/n.
Calculer le biais de cet estimateur. Corriger
l'estimateur pour obtenir un biais nul. Prouver alors la
convergence de cet estimateur et donner une borne
sur la vitesse de convergence.
Téléchargement