Bagages en probabilités et en statistiques Benjamin Monmege 02 février 2012 Statistique descriptive • Collection finie d’observations • Description de cette collection à l’aide de caractéristiques statistiques : moyenne, médiane, effectifs, fréquences, mode, maximum, minimum, variance, écart-type, quantiles... Itt $45,000 f 'I Moyenne, médiane et mode $15,000 $10,000 4.+ARn1fMmcAL AVERAG6 $5,700 «1fiii $5,000 $3,700 Imagi ner d es sit dans uatio lesqu ns elles avant il est ageux l’une d e prése des t nter rois m oyenn es . . . 'iii M .... .. $3,000 S2,000 How to lie with statistics, Darrel Huff 1954 Histogrammes Moyenne = médiane = mode Probabilités vs. Statistiques Probabilités • Statistiques • Mesure de l’incertitude d’un phénomène • Étant donné un objet qui Étant donné un ensemble de génère des données, quelles données, que peut-on dire sont les propriétés de l’objet qui génère ces vérifiées par les données données ? en sortie ? Données observées Modélisation d’un phénomène • Probas Stats Générateur de données Probabilités • Univers (sample space) • Évènement (event) • Distribution de probabilité • Continuité des probabilités • Exemple de la distribution uniforme : dénombrement Exercice 1 On dispose de 6 tasses et de leurs soucoupes : 2 sont rouges, 2 sont blanches et 2 sont noires. Si les tasses sont placées de manière aléatoire sur les soucoupes, quelle est la probabilité qu’aucune tasse ne soit sur une soucoupe de la même couleur ? Indépendance et probabilités conditionnelles • Évènements indépendants • Probabilité conditionnelle • Formule des probabilités totales • Théorème de Bayes Exercice 2 1. Quand deux évènements disjoints sont-ils indépendants ? 2. Une pièce est lancée à plusieurs reprises. Quelle est la probabilité qu’un jour ou l’autre la pièce tombe sur face ? Exercice 3 Un test médical pour une maladie a deux valeurs de sortie possibles + et -. Les probabilités sont D Dc + 0,009 0,099 - 0,001 0,891 1. Calculer les probabilités P(+|D) et P(-|Dc). 2. Supposons que vous alliez faire un test et obteniez un résultat positif. Selon votre intuition, quelle est l'ordre de grandeur de la probabilité que vous ayez la maladie ? Faites le calcul pour vérifier votre intuition. Exercice 4 Une famille est composée de deux enfants (qui ne sont pas des jumeaux). 1. Quelle est la probabilité que les deux soient des garçons, sachant qu’au moins un est un garçon ? 2. Quelle est la probabilité que les deux soient des garçons, sachant que le plus jeune des deux enfants est un garçon ? Variables aléatoires • Variable aléatoire • Fonction de distribution • Variables discrètes vs. variables continues • Vecteurs aléatoires : distributions marginales, indépendance, probabilités conditionnelles Quelques notations... • n : nombre de tirages d’une expérience • i.i.d : indépendantes identiquement distribuées. Se dit d’une suite de variables aléatoires qui suivent toutes la même loi de probabilité et sont deux à deux indépendantes Exemples Discret Variable aléatoire Vecteur aléatoire • • • • • Uniforme discret • Multinomiale(n,p) Bernoulli(p) Binomiale(n,p) Géométrique(p) Continu • • Uniforme(a,b) Normal(μ,σ2) Poisson(λ) • Normal(μ,Σ) Exercice 5 Devant le peloton d'exécution, on vous propose un jeu avec deux urnes contenant des boules bleues et rouges. Vous pouvez tirer deux boules, sans remise : si au moins une boule rouge est tirée, vous êtes libre. En réalité, voici le contenu des urnes : 1 2 Imaginons que vous choisissez aléatoirement une des deux urnes pour tirer la première boule, et que la balle tirée est bleue ! 1. Quelle est la chance que vous ayez choisi une urne par rapport à l'autre ? 2. Si vous conservez la même urne pour le second tirage, quelle est votre chance de survie ? 3. Pour votre deuxième tirage, avez-vous intérêt à tirer dans la même urne ou à en changer ? Autres exemples de ce phénomène State of the art, 3 Problème de Monty Hall http://www.youtube.com/watch?v=mhlc7peGlGg This one is more difficu Problème du démineur Paramètres • Espérance d’une variable aléatoire : mesurer la moyenne • Moments • Variance et écart-type : mesurer la diffusion autour de la moyenne • Covariance et corrélation : à quel point deux variables aléatoires sont reliées • Cas multi-dimensionnel Exemples Espérance Variance Bernoulli(p) p p(1-p) Binomiale(n,p) np np(1-p) Géométrique(p) 1/p (1-p)/p2 Poisson(λ) λ λ Uniforme(a,b) (a+b)/2 (b-a)2/12 Normal(μ,σ2) μ σ2 Multinomiale(n,p) np ... Normal(μ,Σ) μ Σ Quand les statistiques rentrent à nouveau en jeu... Estimer un paramètre à partir d’un échantillon Données ... ... i.i.d paramètre Estimateur Erreur Convergent Biais Vitesse de convergence ? Non biaisé ssi biais = 0 Exemple : Évaluer une méthode de prédiction • Supposons qu’on teste une méthode de prédiction sur un ensemble de n cas. Soit Xi=1 si la méthode échoue sur le cas i et Xi=0 sinon. On peut voir Xi comme une distribution de Bernoulli, avec moyenne p inconnue (c’est le paramètre) • Estimateur non biaisé : X =(X +...+X )/n • Convergent ? Vitesse de convergence ? n 1 n Inégalités • Inégalité de Markov • Inégalité de Chebyshev • Loi faible des grands nombres • Application au problème de prédiction • Inégalité de Hoeffding • Application au problème de prédiction (bis) Exercice 6 On cherche un estimateur pour la variance d'un ensemble de données x1, ..., xn indépendantes identiquement distribuées, suivant la loi d'une variable aléatoire X, de moyenne µ. 2 2 ((X1-µ) +...+(Xn-µ) )/n. Cela 1. Étudier l'estimateur semble-t-il un estimateur raisonnable ? vous 2. On considère l'estimateur ((X1-Xn)2+...+(Xn-Xn)2)/n. Calculer le biais de cet estimateur. Corriger l'estimateur pour obtenir un biais nul. Prouver alors la convergence de cet estimateur et donner une borne sur la vitesse de convergence.