TP Scilab Probabilités - Statistiques Michael Baudin (EDF R&D) Jean-Marc Martinez (CEA) 23 février 2015 1 c 2011 - 2015 - Michael Baudin Copyright This file must be used under the terms of the Creative Commons Attribution-ShareAlike 3.0 Unported License : http://creativecommons.org/licenses/by-sa/3.0 2 Résumé Ce document est une feuille de route pour le TP Probabilités-Statistiques. Dans la première partie, nous faisons quelques manipulations sur le thème des probabilités, avec Scilab et le module distfun. Dans la seconde partie, nous faisons quelques manipulations sur le thème des statistiques, avec Scilab et le module Stixbox. Table des matières 1 Introduction 1.1 Vue d’ensemble . . . 1.2 Contact . . . . . . . 1.3 Outils et Documents 1.4 Fichiers . . . . . . . 1.5 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 5 6 6 2 Exercices Probabilités 2.1 Loi binomiale . . . . . . 2.1.1 Rappel de cours 2.1.2 Exercice . . . . . 2.1.3 Squelette . . . . 2.1.4 Sortie . . . . . . 2.2 Loi uniforme . . . . . . 2.2.1 Rappel de cours 2.2.2 Exercice . . . . . 2.2.3 Squelette . . . . 2.3 Loi normale . . . . . . . 2.3.1 Rappel de cours 2.3.2 Exercice . . . . . 2.3.3 Squelette . . . . 2.4 Règle des trois sigmas . 2.4.1 Squelette . . . . 2.5 Théorème limite central 2.5.1 Rappel de cours 2.5.2 Exercice . . . . . 2.5.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 6 7 8 8 8 8 8 9 10 10 10 10 11 11 11 11 11 12 3 Exercices Probabilités Optionnels 3.1 Loi binomiale (théorie) . . . . . . . . . . . . . . . . . 3.2 Loi uniforme (théorie) . . . . . . . . . . . . . . . . . 3.3 Loi normale (théorie) . . . . . . . . . . . . . . . . . . 3.4 Produits défaillants sur une ligne de production (*) . 3.4.1 Squelette . . . . . . . . . . . . . . . . . . . . 3.5 Puissance dissipée par une résistance (*) . . . . . . . 3.6 Lien entre la loi de Poisson et la loi normale (*) . . . 3.7 Changement de loi : uniforme vers exponentielle (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 14 15 15 15 16 16 4 Exercices Statistiques 4.1 Estimation de la moyenne 4.1.1 Rappel de cours . 4.1.2 Expérience A1 . . 4.1.3 Squelette . . . . . 4.1.4 Sortie . . . . . . . 4.1.5 Expérience A2 . . 4.1.6 Squelette . . . . . 4.1.7 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 17 18 18 19 19 19 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 22 22 23 23 23 24 24 25 25 25 25 26 26 26 27 27 28 28 28 28 29 29 29 29 29 30 5 Exercices Statistiques Optionnels 5.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Un peu de théorie . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Expérience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Un peu de théorie . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Estimation d’une probabilité de dépassement . . . . . . . . . . . . . . 5.3.1 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Expérience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Intervalle de confiance de la moyenne d’une variable normale (théorie) 5.5 Distribution de la moyenne d’une variable normale (*) . . . . . . . . . 5.5.1 Expérience A (variance connue) . . . . . . . . . . . . . . . . . . 5.5.3 Expérience B (variance inconnue) . . . . . . . . . . . . . . . . . 5.5.5 Expérience C . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.6 Expérience D . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Estimation d’un quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Expérience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3 Expérience E . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7 Quantile de Wilks (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.1 Expérience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2 Expérience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . 5.8.1 Expérience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8.2 Expérience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 30 30 30 30 32 32 32 32 32 33 34 34 34 35 35 36 36 36 37 37 39 39 39 40 40 40 4.2 4.3 4.4 4.5 4.1.8 Expérience B . . . . . . . . . . . . . . 4.1.9 Squelette . . . . . . . . . . . . . . . . Intervalle de confiance d’une moyenne . . . . 4.2.1 Rappel de cours . . . . . . . . . . . . 4.2.2 Expérience A . . . . . . . . . . . . . . 4.2.3 Squelette . . . . . . . . . . . . . . . . 4.2.4 Sortie . . . . . . . . . . . . . . . . . . 4.2.5 Expérience B . . . . . . . . . . . . . . 4.2.6 Squelette . . . . . . . . . . . . . . . . 4.2.7 Sortie . . . . . . . . . . . . . . . . . . Estimation de la variance . . . . . . . . . . . 4.3.1 Rappel de cours . . . . . . . . . . . . 4.3.2 Expérience A . . . . . . . . . . . . . . 4.3.3 Sortie . . . . . . . . . . . . . . . . . . 4.3.4 Squelette . . . . . . . . . . . . . . . . 4.3.5 Expérience B . . . . . . . . . . . . . . Estimation d’une probabilité de dépassement 4.4.1 Rappel de cours . . . . . . . . . . . . 4.4.2 Expérience A . . . . . . . . . . . . . . 4.4.3 Sortie . . . . . . . . . . . . . . . . . . 4.4.4 Squelette . . . . . . . . . . . . . . . . 4.4.5 Expérience B . . . . . . . . . . . . . . Estimation d’un quantile . . . . . . . . . . . . 4.5.1 Rappel de cours . . . . . . . . . . . . 4.5.2 Expérience A . . . . . . . . . . . . . . 4.5.3 Squelette . . . . . . . . . . . . . . . . 4.5.4 Sortie . . . . . . . . . . . . . . . . . . 4.5.5 Expérience B . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9 5.8.3 Expérience C (*) QQ-Plot . . . . . . . . . 5.9.1 Rappel de cours 5.9.2 Expérience A1 . 5.9.3 Squelette . . . . 5.9.4 Expérience A2 . 5.9.5 Expérience B (*) 5.9.6 Expérience C (*) 5.9.7 Expérience D (*) 5.9.8 Expérience E (*) 5.9.9 Expérience F (*) 5.9.10 Expérience G (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliographie 1 40 43 43 43 43 44 44 44 45 48 49 49 49 Introduction 1.1 Vue d’ensemble Dans ce TP, nous présentons des exercices de probabilités et de statistiques avec Scilab. Ces exercices utilisent le module distfun, qui fournit les lois de probabilité classiques. Ce module est compatible avec Matlab, dans le sens où les fonctions sont les mêmes. Bien que nous conseillons de faire tous les exercices, il est possible que nous manquions de temps lors des travaux pratiques. Les exercices marqués d’une étoile (*) sont optionnels, et peuvent être ignorés pendant la séance. Dans tous les cas, à la moitié de la séance, vous passerez à la seconde partie du TP, c’est à dire aux statistiques. Pour chaque exercice, nous fournissons : – un rappel de cours, – un énoncé, avec des fonctions Scilab à utiliser, – un squelette de solution, avec des sections ”TODO” à compléter, – une solution commentée. 1.2 Contact [email protected] Remplacer ”DONOTSPAM” par ”edf”. 1.3 Outils et Documents Dans cette partie, nous donnons la liste des outils et documents qui sont utilisés dans ce TP. Ce TP utilise la dernière version de Scilab, la v5.4.0, qui est téléchargeable à l’adresse : http://www.scilab.org/ Pour s’initier a Scilab, on peut consulter ”Introduction to Scilab”, Michael Baudin, 2008-2011 : http://forge.scilab.org/index.php/p/docintrotoscilab/downloads/ Pour programmer avec Scilab, on peut consulter ”Programming in Scilab”, Michael Baudin, 20082011 : http://forge.scilab.org/index.php/p/docprogscilab/downloads/ Le module Scilab distfun est open-source. Le code source est développé sur la Forge Scilab : http://forge.scilab.org/index.php/p/distfun/ 5 1.4 Fichiers J’ai à votre disposition un répertoire contenant les fichiers suivants. – roadmap : ce document en LATEX – scripts : les scripts utilisés dans ce TP 1.5 Installation Les exercices dans ce TP nécessitent les toolbox suivantes : Scilab 5.4.0, NISP 2.5, distfun 0.6, stixbox 2.0. Ces modules (et leurs dépendances) nécessitent environ 28MB sur un système Linux 32 bits (sans compter l’installation de Scilab). Si on dispose d’une connexion internet, on peut télécharger et installer ces modules en tapant, dans la console Scilab : atomsInstall ( " NISP " ) atomsInstall ( " distfun " ) atomsInstall ( " stixbox " ) Puis on redémarre Scilab. Sur Linux, il est courant d’avoir des problèmes graphiques avec Scilab 5.4.0. La raison est que certains drivers graphiques ne peuvent pas être utilisés correctement par Scilab. La situation typique est qu’on voit apparaı̂tre le message suivant quand on crée un graphique 3D. --> plot3d () WARNING : Due to your configuration limitations , Scilab switched in a mode where mixing uicontrols and graphics is not available . Type " help usecanvas " for more information . Le problème peut également se présenter sous la forme d’une fenêtre graphique vide, noire, ou bien encore par un plantage de Scilab. La solution peut alors consister à désactiver l’utilisation d’un certain composant graphique interne à Scilab, en utilisant la fonction usecanvas. --> usecanvas ( %f ); WARNING : Despite of our previous warning , you chose to use Scilab with advanced graphics capabilities . Type " help usecanvas " for more information . 2 2.1 2.1.1 Exercices Probabilités Loi binomiale Rappel de cours Soit N un entier positif et pr une probabilité dans l’intervalle (0, 1). On réalise une expérience de Bernoulli, dans laquelle on obtient un succès avec une probabilité pr et un échec avec une probabilité 1 − pr . On répète cette expérience N fois. Soit X le nombre de succès. Alors X suit une loi binomiale de paramètres pr et N . Sa densité de probabilité est : N f (x, N, pr ) = pxr (1 − pr )N −x , (1) x pour x = 0, 1, 2, ..., où le coefficient binomial est défini par : N! N = x x!(N − x)! 6 (2) Figure 1 – Loi Binomiale. 2.1.2 Exercice Dans cet exercice, on calcule la probabilité d’obtenir x succès avec différentes fonctions Scilab : la fonction factorial, la fonction specfun nchoosek et la fonction distfun binopdf. Bien sûr, vous devez obtenir les mêmes résultats, mais l’exercice montre que la fonction distfun binopdf est la plus facile à utiliser (et aussi la plus robuste). Exercice 1 Calculer la probabilité d’observer x=1 succès dans une expérience de Bernoulli avec N=20 expériences, dans laquelle chaque expérience a une probabilité de succès pr=0.5. Pour ce faire, suivez les instructions suivantes. – Voir la page d’aide help factorial. Voir les paramètres d’entrée, de sortie. – Voir la page d’aide help specfun nchoosek. Cette fonction calcule le coefficient binomial. Voir les paramètres d’entrée, de sortie. – Voir la page d’aide help distfun binopdf. Cette fonction calcule la densité de probabilité (en anglais, ”Probability Distribution Function”) de la loi binomiale. – Calculer la probabilité d’observer x=1 succès dans une expérience de Bernoulli avec N=20 expériences, dans laquelle chaque expérience a une probabilité de succès pr=0.5 : – avec la fonction factorial, – avec la fonction specfun nchoosek, – avec la fonction distfun binopdf. – Enfin, dessiner la densité de probabilité pour les paramètres suivants : – pr=0.5, N=20, – pr=0.7, N=20, – pr=0.5, N=40. Pour cela, utiliser la fonction distfun binopdf ainsi que la fonction plot et reproduire la figure 1. Notez qu’un seul appel à la fonction distfun binopdf est suffisant. En effet, la séquence d’appel : P = distfun_binopdf (0: N ,N , pr ) calcule le vecteur ligne P, qui contient les probabilités pour x = 0, 1, ..., N . – Pour comprendre le sel de l’implémentation de distfun binopdf, considérez les paramètres N=1030 et pr=0.5 et tentez de calculer P (X = 500) = 0.016063 [6]. 7 2.1.3 Squelette Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant. N =20; pr =0.5; x =1; // Avec factorial : c = factorial ( TODO )/ factorial ( TODO )/ factorial ( TODO ) P = TODO mprintf ( " P ( X =1) ( factorial )= %f \ n " ,P ) // Avec nchoosek : P = specfun_nchoosek ( TODO )* TODO mprintf ( " P ( X =1) ( nchoosek )= %f \ n " ,P ) // Avec binopdf : P = distfun_binopdf ( TODO ) mprintf ( " P ( X =1) ( binopdf )= %f \ n " ,P ) // scf (); y1 = distfun_binopdf ( TODO ); plot (x , y1 , " bo - " ) y2 = distfun_binopdf ( TODO ); plot (x , y2 , " go - " ) y3 = distfun_binopdf ( TODO ); plot (x , y3 , " ro - " ) legend ([ " pr =0.5 , N =20 " ," pr =0.7 , N =20 " ," pr =0.5 , N =40 " ]); xtitle ( " Binomial PDF " ," x " ," P ( x ) " ) 2.1.4 Sortie Le script précédent produit les sorties suivantes. P ( X =1) ( factorial ) 0.0000191 P ( X =1) ( nchoosek ) 0.0000191 P ( X =1) ( binopdf ) 0.0000191 2.2 2.2.1 Loi uniforme Rappel de cours Soit a et b deux réels tels que a < b. La variable X suit une loi uniforme de paramètres a et b si sa densité est : f (x, a, b) = 1 b−a (3) si x ∈ [a, b] et zéro sinon. L’espérance de X et sa variance sont 2.2.2 E(X) = V (X) = a+b , 2 (b − a)2 . 12 (4) (5) Exercice Exercice 2 – Voir la page d’aide help distfun unifrnd. Cette fonction génère des réalisations pseudo-aléatoires (”Random”) indépendantes, de loi uniforme. 8 Figure 2 – Densité de probabilité théorique et histogramme empirique de 1000 réalisations d’une variable aléatoire de loi uniforme. – – – – Générer N=1000 réalisations d’une variable uniforme de paramètres a=6 et b=13. Calculer l’espérance et la variance de la variable aléatoire, avec les équations 4 et 5. Utiliser la fonction distfun unifstat et comparer. Voir les pages d’aide des fonctions help mean et help variance. Estimer la moyenne empirique et la variance empirique de la variable. – Voir les pages d’aide des fonctions help histo et help distfun unifpdf. – Créer un graphique en comparant l’histogramme empirique et la densité de probabilité. 2.2.3 Squelette Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant. N = 1000; a = 6; b = 13; // Esperance : m = TODO // Variance : v = TODO [M , V ]= distfun_unifstat ( TODO ) R = distfun_unifrnd ( TODO ); mean ( R ) variance ( R ) // Graphique a = 6; b = 13; data = distfun_unifrnd ( TODO ); scf (); histo ( TODO ) x = linspace (a -1 , b +1 ,1000); y = distfun_unifpdf ( TODO ); plot ( TODO ) xtitle ( " Uniform random numbers " ," X " ," Density " ); legend ([ " Empirical " ," PDF " ]); 9 Figure 3 – La loi de distribution normale de paramètres µ = 5 et σ = 7. A gauche, la densité de probabilité. A droite, la fonction de répartition. 2.3 2.3.1 Loi normale Rappel de cours Soit µ ∈ R et σ > deux paramètres. La variable X suit la loi normale de moyenne µ et d’écart-type σ si sa densité de probabilité est 1 (x − µ)2 f (x, µ, σ) = √ exp − , 2σ 2 σ 2π pour x ∈ R. 2.3.2 Exercice Exercice 3 – Dessiner la densité de probabilité de la loi normale de paramètres mu=5 et sigma=7 en utilisant la fonction exp. – Voir la page d’aide help distfun normpdf. Cette fonction calcule la densité de probabilité (PDF) de la loi normale. – Dessiner la densité de probabilité de la loi normale de paramètres mu=5 et sigma=7 en utilisant distfun normpdf. Reproduire la partie gauche de la figure 3. – Voir la page d’aide help distfun normcdf. Cette fonction calcule la fonction de répartition (CDF) de la loi normale. – Dessiner la fonction de répartition de la loi normale de paramètres mu=5 et sigma=7. Reproduire la partie droite de la figure 3. 2.3.3 Squelette Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant. // Plot the PDF ( with distfun_normpdf ) mu = 5; sigma = 7; scf (); x = linspace ( TODO ); y = distfun_normpdf ( TODO ); plot (x ,y , "r - " ) xtitle ( " Densite de probabilite Normale - mu =5 , sigma =7 " ,.. " x " ," f ( x ) " ); // Plot the CDF 10 mu = 5; sigma = 7; scf (); x = linspace ( TODO ); p = distfun_normcdf ( TODO ); plot (x ,p , "b - " ) xtitle ( " Fonction Repartition Normale - mu =5 , sigma =7 " ,.. " x " ," $P ( X \ leq x ) $ " ); 2.4 Règle des trois sigmas Exercice 4 Supposons que X est une variable aléatoire de loi normale, où µ est la moyenne et σ l’écart-type. Alors : P (µ − σ ≤ X ≤ µ + σ) ≈ 0.6827 P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 0.9545 P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.9973 Vérifier avec Scilab en utilisant la fonction distfun normcdf. 2.4.1 Squelette Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant. p1 = distfun_normcdf ( TODO ) - distfun_normcdf ( TODO ) p2 = distfun_normcdf ( TODO ) - distfun_normcdf ( TODO ) p3 = distfun_normcdf ( TODO ) - distfun_normcdf ( TODO ) 2.5 2.5.1 Théorème limite central Rappel de cours Soit X une variable aléatoire uniforme dans [−4, 2]. Soit xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. On considère la variable aléatoire : Zn = x1 + x2 + ...xn − nµ √ nσ La loi de Zn converge vers la loi normale standard, lorsque n est grand. 2.5.2 Exercice On veut vérifier que la loi de Zn converge vers la loi normale standard. Exercice 5 – Avec la fonction distfun unifrnd, générer un échantillon R avec N=10000 lignes et k=1 colonne, de loi uniforme de paramètres a=-4 et b=2. – Avec la fonction sum(R,"c"), faire la somme des colonnes et calculer Z. – Avec la fonction histo, tracer l’histogramme empirique de Z. – Répéter avec k=2,4,8 et reproduire la figure 4. – Optionnel. Superposer la densité de probabilité normale standard. 11 Figure 4 – Illustration du théorème central limite. Convergence de la convergence de Zn vers une variable de loi normale standard, lorsque X est de loi uniforme de paramètres a = −4. 2.5.3 Squelette Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant. a = -4; b =2; [M , V ]= distfun_unifstat ( TODO ); N =10000; scf (); // k =1; subplot (2 ,2 ,1); R = distfun_unifrnd ( TODO ); S =( sum (R , " c " ) - k * M )/( sqrt ( k * V )); histo ( TODO ); x = linspace ( TODO ); y = distfun_normpdf ( TODO ); plot (x ,y , "b - " ) xtitle ( " k =1 " ," x " ," Density " ) legend ([ " Data " ," Normal (0 ,1) " ]); // k =2; subplot (2 ,2 ,2); TODO // k =4; subplot (2 ,2 ,3); TODO // k =8; subplot (2 ,2 ,4); TODO 12 3 Exercices Probabilités Optionnels 3.1 Loi binomiale (théorie) Soit N un entier positif et pr une probabilité dans l’intervalle (0, 1). On réalise une expérience de Bernoulli, dans laquelle on obtient un succès avec une probabilité pr et un échec avec une probabilité 1 − pr . On répète cette expérience N fois. Soit X le nombre de succès. Alors X suit une loi binomiale de paramètres pr et N . Sa densité de probabilité est donnée par l’équation 1, page 6. Exercice 6 Démontrer l’équation 1. Rappel : On rappelle que, pour une variable discrète, l’espérance est définie par X E(X) = xi P (X = xi ). i De plus, la variance est définie par : V (X) = E((X − µ)2 ), où µ = E(X). La variance de X peut se calculer en fonction de µ et E(X 2 ). En effet, V (X) = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2 = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2 . Exercice 7 Soit X une variable aléatoire distribuée selon la loi de Bernoulli de paramètre pr . En d’autres termes, 1 si l’essai i est un succès, X= 0 sinon. avec P (X = 1) = pr et P (X = 0) = 1 − pr . Montrer que E(X) = pr , V (X) = pr (1 − pr ). (6) Exercice 8 Soit X une variable aléatoire distribuée selon la loi binomiale de paramètres N et pr . Montrer que E(X) = N pr , 3.2 V (X) = N pr (1 − pr ). (7) Loi uniforme (théorie) Soit a et b deux réels tels que a < b. La variable X suit une loi uniforme de paramètres a et b si sa densité est donnée par l’équation 3, page 8. L’espérance de X et sa variance sont donnés par les équations 4 et 5, page 8. Exercice 9 Démontrer les équations 4 et 5. 13 Rappel : Pour une variable aléatoire X continue, l’espérance est définie par Z E(X) = xf (x)dx, x où f est la densité de probabilité de X. 3.3 Loi normale (théorie) Exercice 10 Soit X une variable aléatoire. On appelle fonction génératrice des moments la fonction M définie par M (t) = E etX , pour tout t ∈ R. 1. Montrer que M 0 (0) = E(X). (8) M 00 (0) = E(X 2 ). (9) M (n) (0) = E(X n ), (10) 2. Montrer que 3. Montrer que pour tout entier n. Exercice 11 Soit X une variable aléatoire normale de paramètres µ et σ. 1. Montrer que la fonction génératrice des moments de X est σ 2 t2 M (t) = exp µt + . 2 (11) 2. En déduire que V (X) = σ 2 . E(X) = µ, (12) Indication : on utilisera le changement de variable z= x−µ σ (13) et on démontrera l’égalité tσz − z2 t2 σ 2 (z − tσ)2 = − , 2 2 2 pour tout t ∈ R. 14 (14) Figure 5 – Probabilité que la puissance W dépasse un seuil. 3.4 Produits défaillants sur une ligne de production (*) Exercice 12 Supposons que des objets sont produits par une ligne de production, et classés comme défaillants ou non-défaillants, indépendamment les uns des autres. La probabilité qu’un objet soit non-défaillant est pr=0.8. A un moment dans la ligne de production, on sélectionne un échantillon en prenant trois objets au hasard. Calculer la probabilité que l’échantillon contienne 0, 1, 2 ou 3 objets non-défaillants. 3.4.1 Squelette Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant. P0 = distfun_binopdf ( TODO ) mprintf ( " P ( X =0)= %f \ n " , P0 ) P1 = distfun_binopdf ( TODO ) mprintf ( " P ( X =1)= %f \ n " , P1 ) P2 = distfun_binopdf ( TODO ) mprintf ( " P ( X =2)= %f \ n " , P2 ) P3 = distfun_binopdf ( TODO ) mprintf ( " P ( X =3)= %f \ n " , P3 ) mprintf ( " Somme = %f \ n " , P0 + P1 + P2 + P3 ) 3.5 Puissance dissipée par une résistance (*) Exercice 13 Considérons la puissance W dissipée par une résistance (en watts). Elle satisfait l’équation W = U2 R où R est la résistance du conducteur (en ohms) et U est la tension (en volts). Supposons que R = 1/3 et que U est une variable aléatoire de loi normale de moyenne µ = 6 et d’écart-type σ = 1. – Calculer E(W ). – Calculer P (W > 120). – Dessiner P (W > s), pour s > 0 et reproduire la figure 5. 15 Figure 6 – Convergence de la loi de Poisson vers la loi normale lorsque la moyenne λ de la loi de Poisson augmente. 3.6 Lien entre la loi de Poisson et la loi normale (*) Supposons que des événements aléatoires se produisent indépendamment les uns des autres. Soit λ > 0 le nombre moyen d’apparition de ces événements par unité de temps (ou d’espace). La variable X suit une loi de Poisson si sa densité de probabilité est f (x, λ) = λx exp(−λ) , x! pour x = 0, 1, 2, .... Exercice 14 Quand λ augmente, la distribution de Poisson de paramètre λ approche la distribution normale de √ moyenne λ et d’écart-type λ. Vérifier avec Scilab : avec les valeurs suivantes lambda=[4 16 32 10000]. Indication : utiliser – distfun poisspdf – distfun normpdf et reproduire la figure 6. 3.7 Changement de loi : uniforme vers exponentielle (*) Exercice 15 Soit U une variable uniforme dans [0, 1]. Considérons la variable X = −µ ln(1 − U ) – – – – Quelle est la fonction de répartition de X ? Quelle est la densité de probabilité de X ? Quelle est la loi de X ? Générer un échantillon de taille N=10000 de réalisations d’une variable aléatoire uniforme de paramètres a=0 et b=1. 16 Figure 7 – Transformation des réalisation d’une variable uniforme dans [0, 1] vers une variable exponentielle de moyenne µ = 5. – Appliquer la transformation R = −µ exp(U ), avec mu=5. (U et 1 − U sont de même loi). – Créer l’histogramme empirique des valeurs de R. – Superposer la densité de la variable exponentielle, de moyenne mu=5 et reproduire la figure 7. 4 4.1 4.1.1 Exercices Statistiques Estimation de la moyenne Rappel de cours Avant de présenter quelques éléments théoriques associés à l’estimation de la moyenne, nous présentons un cours rappel sur les propriétés d’une variable aléatoire de loi normale. Rappel : Supposons que X est une variable aléatoire de loi normale, de moyenne E(X) et de variance V (X). Soit α un réel. Alors la variable aléatoire X + α est telle que E(X + α) = E(X) + α, V (X + α) = V (X). D’autre part, la variable aléatoire αX est telle que E(αX) = αE(X), V (αX) = α2 V (X). Soit X une variable aléatoire. Soit n un entier positif et xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. On considère la moyenne empirique xn = x1 + x2 + ... + xn . n (15) On s’intéresse à l’estimation de l’espérance E(X) par son estimateur xn . Soit X1 , . . . , Xn des variables aléatoires indépendantes et identiquement distribuées. Soit Xn = X1 + X2 + ... + Xn , n la variable aléatoire associée à la moyenne empirique. 17 (16) Dans l’exercice 27, on montre que : E(X n ) = E(X) (17) V (X) . n (18) et V (X n ) = Supposons désormais que n est grand. D’après le théorème central limite, on a X1 + . . . + Xn − nE(X) p ∼ N (0, 1). nV (X) Cela implique X1 + . . . + Xn − nE(X) ∼ N (0, nV (X)), et, par conséquent, X1 + . . . + Xn ∼ N (nE(X), nV (X)). C’est pourquoi X n ∼ N (E(X), V (X)/n). En d’autres termes, la distribution de la moyenne empirique est normale, de moyenne E(X) et de variance V (X)/n. 4.1.2 Expérience A1 Exercice 16 Supposons que X est de loi exponentielle, de paramètre µ = 12 (moyenne). L’objectif de cet exercice est d’observer que la moyenne empirique X n est une variable aléatoire. Les propriétés de ses réalisations peuvent être prédites par les résultats présentés précédemment. 1. Calculer l’espérance M et la variance V de X en utilisant les équations : E(X) = µ, V (X) = µ2 . 2. Utiliser la fonction distfun expstat pour calculer E(X) et V (X) et vérifier que le résultat est identique au résultat de la question précédente. 3. Prendre n=1000 et générer le vecteur X, contenant n réalisations de la variable X. Pour cela, utiliser la fonction distfun exprnd. 4. Calculer la moyenne empirique X n en utilisant l’instruction Mn=mean(X). Afficher E(X), V (X), E(X n ), V (X n ), ainsi que la moyenne empirique Mn. 5. Exécuter le script plusieurs fois, et observer la variabilité de la moyenne empirique. Répéter avec des valeurs de n plus grandes et vérifier que la variabilité est réduite. Répéter avec des valeurs de n plus petites et vérifier que la variabilité est augmentée. 4.1.3 Squelette mu =12; mprintf ( " mu = %f \ n " , mu ); // 1. Calculer la moyenne , la variance exactes de X M = TODO ; // Moyenne V = TODO ; // Variance // 2. Utiliser distfun_expstat [M , V ] = distfun_expstat ( mu ); // 3. Generer n realisations n =1000; 18 X = distfun_exprnd ( TODO ); // 4. Estimer la moyenne empirique Mn = mean ( TODO ); mprintf ( " E ( X )= %f , V ( X )= %f \ n " , TODO ); mprintf ( " E ( Mn )= %f , V ( Mn )= %f \ n " , TODO ); mprintf ( " Mean ( X )= %f \ n " , TODO ); 4.1.4 Sortie Le script produit la sortie suivante. mu =12.000000 E ( X )=12.000000 , V ( X )=144.000000 E ( Mn )=12.000000 , V ( Mn )=0.144000 Mean ( X )=12.618887 4.1.5 Expérience A2 Exercice 17 Supposons que X est de loi exponentielle, de paramètre µ = 12 (moyenne). L’objectif de cet exercice est d’observer que, lorsque le nombre de réalisations n augmente, la variance de la moyenne empirique diminue. Pour cela, dans l’exercice qui suit, on génère Nsample réalisations de X n . 1. Utiliser la fonction distfun expstat pour calculer E(X) = µ et V (X) = µ2 . 2. Prendre n=2 et générer le vecteur Mn, contenant Nsample=10000 réalisations de la variable X n . Pour cela, utiliser la fonction distfun exprnd pour calculer la matrice X contenant Nsample=10000 lignes et n colonnes. Ensuite, calculer la moyenne empirique X n en utilisant l’instruction Mn=mean(X,"c"). 3. Estimer la moyenne empirique de Mn, sa variance, et comparer avec M et V/n. Indication : voir la fonction variance. 4. Répéter avec n=1,2,4,8. 4.1.6 Squelette mu =12; mprintf ( " mu = %f \ n " , mu ); // 1. Calculer la moyenne , la variance M = TODO ; // Moyenne V = TODO ; // Variance // 2. Utiliser distfun_expstat [M , V ] = distfun_expstat ( TODO ); // 3. Generer 10000 realisations de la // moyenne empirique Nsample =10000; n =2; X = distfun_exprnd ( TODO ); Mn = mean ( TODO ); // 4. Estimer les valeurs empiriques // Comparer avec les valeurs exactes mprintf ( " n = %d \ n " ,n ); mprintf ( " E ( Mn )= %f , V ( Mn )= %f \ n " , TODO , TODO ); mprintf ( " Mean ( Mn )= %f , Variance ( Mn )= %f \ n " ,.. mean ( TODO ) , variance ( TODO )); // 5. Repeter avec n =1 ,2 ,4 ,8 mprintf ( " Variable Exponentielle ( mu =12)\ n " ); for n =[1 2 4 8] mprintf ( " n = %d \ n " ,n ); mprintf ( " E ( Mn )= %f , V ( Mn )= %f \ n " , TODO , TODO ); X = distfun_exprnd ( TODO ); 19 Mn = mean ( TODO ); mprintf ( " Mean ( Mn )= %f , Variance ( Mn )= %f \ n " ,.. mean ( TODO ) , variance ( TODO )); end 4.1.7 Sortie Le script produit la sortie suivante. mu =12.000000 n =2 E ( Mn )=12.000000 , V ( Mn )=72.000000 Mean ( Mn )=12.073910 , Variance ( Mn )=71.219129 Variable Exponentielle ( mu =12) n =1 E ( Mn )=12.000000 , V ( Mn )=144.000000 Mean ( Mn )=11.999513 , Variance ( Mn )=143.258739 n =2 E ( Mn )=12.000000 , V ( Mn )=72.000000 Mean ( Mn )=12.020114 , Variance ( Mn )=72.727774 n =4 E ( Mn )=12.000000 , V ( Mn )=36.000000 Mean ( Mn )=12.020695 , Variance ( Mn )=36.679829 n =8 E ( Mn )=12.000000 , V ( Mn )=18.000000 Mean ( Mn )=12.061005 , Variance ( Mn )=18.432936 4.1.8 Expérience B Exercice 18 Supposons que X est de loi exponentielle, de paramètre µ = 12 (moyenne). On veut maintenant voir la distribution des réalisations de X n , et observer que, quand n augmente, alors la distribution de X n s’approche de la distribution normale, de moyenne E(X) et de variance V (X)/n. 1. Calculer l’espérance M et la variance V de X avec la fonction distfun expstat. 2. Prendre n=2 et générer le vecteur Mn, contenant Nsample=1000 réalisations de la variable X n avec la fonction distfun exprnd. 3. Tracer l’histogramme empirique des réalisations de xn en utilisant la fonction histo. 4. Tracer la densité de probabilité de la loi normale de paramètres M et V/n en utilisant la fonction distfun normpdf. 5. Répéter l’expérience pour n=1,2,4,8 et placer les 4 sous-graphiques précédents dans un seul graphique : reproduire la figure 8. Indication : voir la fonction subplot. 4.1.9 Squelette mu =12; Nsample =1000; [M , V ]= distfun_expstat ( TODO ); x = linspace (0 ,100 ,100); scf (); // n =1; X = distfun_exprnd ( TODO ); Mn = mean ( TODO ); subplot (2 ,2 ,1); histo ( TODO ) y = distfun_normpdf ( TODO ); plot (x ,y , "r - " ); 20 Figure 8 – Distribution empirique et théorique de la moyenne empirique de n = 1, 2, 4, 8 réalisations de variables exponentielles de moyenne µ = 12. La distribution théorique est celle de la loi normale de moyenne µ et de variance µ2 /n. La distribution empirique utilise 1000 réalisations de X n . 21 xtitle ( " Sample Mean - n =1 " ," M " ," Frequency " ); legend ([ " Data " ," Normal PDF " ]); // n =2; subplot (2 ,2 ,2); TODO // n =4; subplot (2 ,2 ,3); TODO // n =8; subplot (2 ,2 ,4); TODO 4.2 4.2.1 Intervalle de confiance d’une moyenne Rappel de cours Soit xi des réalisations indépendantes de la variable aléatoire X, pour i = 1, 2, ..., n. Soit α ∈ [1/2, 1]. Si X est une variable normale de moyenne µ et de variance σ 2 , alors l’intervalle σ δn = z1−α/2 √ n In = [xn − δn , xn + δn ] , (19) est un intervalle de confiance à 1 − α pour la moyenne. En d’autres termes, on a P (In 3 µ) = 1 − α. (20) Si X est une variable normale de moyenne µ et de variance inconnue, alors on considère l’intervalle In = [xn − δn , xn + δn ] , δn = tn−1,1−α/2 √ Sn , n−1 (21) où tn−1,1−α/2 est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de libertés, et Sn est l’écart-type empirique biaisé. Alors l’intervalle In est un intervalle de confiance à 1 − α pour l’espérance. En d’autres termes, on a P (In 3 E(X)) = 1 − α. On peut également utiliser la variance corrigée (non biaisée) Sn∗2 , ce qui mène à S∗ δn = tn−1,1−α/2 √n . n Lorsque n est grand, la loi de Student est approchée par la loi normale standard, de telle sorte que : δn = z1−α/2 √ Sn , n−1 où z1−α/2 est le quantile d’ordre 1 − α/2 de la fonction de répartition de la loi normale standard. La notation In 3 E(X) permet de mettre en valeur le fait que les bornes de l’intervalle In sont des variables aléatoires, tandis que E(X) est l’espérance de la variable. Lorsque n est grand, alors le théorème central limite implique que la distribution de la moyenne empirique est normale, de moyenne E(X) et de variance V (X)/n. De plus, en général, la distribution de la variable X est inconnue (elle ne suit pas nécessairement la loi normale) et la variance V (X) est inconnue, c’est pourquoi on l’estime par la variance empirique. Dans ce cas, on peut utiliser l’intervalle de confiance asymptotique approché P (In 3 E(X)) ≈ 1 − α, δn = z1−α/2 √ Sn . n−1 L’approximation est, dans cette situation, le fruit de trois approximations : 22 1. la distribution de Xn n’est normale que quand n est grand, de telle sorte que la probabilité n’est qu’approximativement égale à 1 − α, 2. la variance V (X) est estimée par la variance empirique Sn2 , qui ne sont proches que lorsque n est grand, 3. le quantile de la loi de Student tn−1,1−α/2 est approché par le quantile de la loi normale z1−α/2 , qui ne sont proches que si n est grand. En pratique, si le nombre de réalisation n est modéré (n < 100) ou faible (n < 10), l’intervalle de confiance précédent peut être incorrect. Plus de détails sur ce thème sont donnés, par exemple, dans [2], section 7.3 ”Interval Estimates”, ou encore dans [3], section 13.5.2 ”Espérance d’une variable normale”. 4.2.2 Expérience A Considérons la variable X de loi log-normale de paramètres µ = 2 et σ = 1. Cela signifie que Y = log(X) est de loi normale de paramètres µ et σ. On cherche à estimer un intervalle de confiance à 95% pour la moyenne de X. Cela correspond à 1 − α = 0.95, c’est à dire α = 0.05. Exercice 19 1. Calculer l’espérance de la variable X avec la fonction distfun lognstat. 2. Générer n=100 réalisations de la variable X avec la fonction distfun lognrnd. 3. Calculer la moyenne empirique et la variance (biaisée) de l’échantillon. Indication : utiliser l’instruction variance(y,"r",1) pour estimer la variance biaisée de y. 4. Calculer le quantile à 0.025 de la loi de Student à n-1 degrés de liberté. Indication : utiliser distfun tinv. 5. En déduire des réalisations des bornes de l’intervalle de confiance. 6. Répéter l’expérience en calculant le quantile à 0.025 de la loi Normale standard avec la fonction distfun norminv. 7. Estimer les bornes de l’intervalle de confiance. 8. Voir la différence entre l’intervalle utilisant la loi de Student et l’intervalle utilisant la loi normale. 4.2.3 Squelette n = 100; // taille echantillon mu = 2; sigma = 1; mux = distfun_lognstat ( TODO ); // esperance de X X = distfun_lognrnd ( TODO ); // Echantillon X Mn = mean ( X ); // moyenne empirique Sn2 = variance (X , " r " ,1); // variance empirique ( biaisee ) level =0.05; // =1 -0.95 al = level /2; // Quand n n ’ est pas tres grand : q = distfun_tinv ( TODO ); // Quand n est grand : // q = distfun_norminv ( TODO ); delta = TODO ; low = Mn - delta ; up = Mn + delta ; mprintf ( " Moyenne exacte = %f \ n " , mux ); mprintf ( " Moyenne empirique = %f \ n " , Mn ); mprintf ( " Intervalle a 0.95 %% : [ %f , %f ]\ n " ,low , up ); 4.2.4 Sortie 23 Figure 9 – Histogrammes empiriques de 10000 réalisations des bornes inférieures et supérieures de l’intervalle de confiance à 95% de la moyenne empirique de 100 réalisations d’une variable log-Normale de paramètres µ = 1 et σ = 2. Moyenne exacte = 12.182494 Moyenne empirique = 9.194240 Intervalle a 0.95 % : [7.309435 ,11.079045] 4.2.5 Expérience B Considérons la variable X de loi log-normale de paramètres µ = 2 et σ = 1. On cherche à estimer un intervalle de confiance à 95% pour la moyenne de X. Exercice 20 L’objectif de cette expérience est de vérifier que 95 % environ des intervalles de confiances In contiennent l’espérance E(X). 1. Générer une matrice de n-par-Nsample réalisations de la variable X, où n=100 et Nsample=10000. 2. Calculer la moyenne empirique sur les lignes et la variance (biaisée) sur les lignes de l’échantillon. 3. En déduire des réalisations des bornes de l’intervalle de confiance à 95 4. Créer un graphique présentant un histogramme des réalisations de la borne inférieure, un histogramme des réalisations de la borne supérieure et une ligne correspondant à l’espérance de X : reproduire la figure 9. 5. Calculer la proportion de réalisations de l’intervalle In qui contiennent l’espérance E(X). Vérifier que cette proportion est proche de 95%. 4.2.6 Squelette mu =2; sigma =1; n =100; Nsample =10000; X = distfun_lognrnd ( TODO ); Mn = mean (X , " r " ); c Sn2 = variance (X , " r " , %nan ); // variance empirique (biais ~ A e) delta = TODO low = Mn - delta ; up = Mn + delta ; x = linspace (5 ,25 ,50); scf (); histo ( low ,x , %t ,1); 24 histo ( up ,x , %t ,2); plot ([ mux , mux ] ,[0 ,0.3] , "r - " ); legend ([ " Lower Bound " ," Upper Bound " ," E ( X ) " ]); xtitle ( " Invervalle de confiance a 95 % - X ~ Log - Normale " ,.. " Mean " ," Frequency " ) // Calcul de P ( I contains mux ) i = find ( mux > low & mux < up ); nInBounds = size (i , " * " ); pInBounds = nInBounds / Nsample ; mprintf ( " P ( I contains E ( X ))= %f \ n " , pInBounds ); 4.2.7 Sortie Le script produit la sortie suivante. P ( I contains E ( X ))=0.920900 4.3 4.3.1 Estimation de la variance Rappel de cours Supposons que X1 , . . . , Xn sont des variables indépendantes et identiquement distribuées, de moyenne µ et de variance σ 2 . On considère l’estimateur biaisé de la variance : n Sn2 = 1X (xi − xn )2 n i=1 (22) et l’estimateur non biaisé : n Sn?2 = 1 X (xi − xn )2 . n − 1 i=1 (23) On sait que : E(Sn2 ) = n−1 V (X), n (24) et E(Sn?2 ) = V (X). 4.3.2 (25) Expérience A Exercice 21 On considère X une variable de loi exponentielle de moyenne µ = 5. Sa variance est µ2 = 25. On veut comparer l’espérance de la variable aléatoire Sn?2 (estimateur non biaisé) et sa valeur attendue µ2 . 1. Générer une matrice de Nsample=10000 par n=2 réalisations de la variable aléatoire X. Indication : utiliser distfun exprnd. 2. Calculer la variable aléatoire Sn?2 (estimateur non biaisé) correspondant à cette matrice (elle a Nsample=10000 lignes et une colonne). 3. Calculer la moyenne empirique de Sn?2 et comparer avec la valeur attendue µ2 . 4. Répéter l’expérience 5 fois. 5. Répéter l’expérience avec n=4,8,16. 25 4.3.3 Sortie Le script produit la sortie suivante. Variable Exponentielle ( mu =5.000000) n =2 E ( Sn )=25.000000 #1 , Mean ( Sn )=24.662395 #2 , Mean ( Sn )=23.851125 #3 , Mean ( Sn )=25.149188 #4 , Mean ( Sn )=24.674425 #5 , Mean ( Sn )=25.280204 n =4 E ( Sn )=25.000000 #1 , Mean ( Sn )=24.370294 #2 , Mean ( Sn )=25.297186 #3 , Mean ( Sn )=24.649946 #4 , Mean ( Sn )=24.681216 #5 , Mean ( Sn )=25.144950 n =8 E ( Sn )=25.000000 #1 , Mean ( Sn )=25.334876 #2 , Mean ( Sn )=25.020715 #3 , Mean ( Sn )=25.123817 #4 , Mean ( Sn )=24.668120 #5 , Mean ( Sn )=24.943173 n =16 E ( Sn )=25.000000 #1 , Mean ( Sn )=24.939115 #2 , Mean ( Sn )=24.817960 #3 , Mean ( Sn )=24.991745 #4 , Mean ( Sn )=25.198029 #5 , Mean ( Sn )=25.151239 4.3.4 Squelette mu =5; Nsample =10; n =2; [M , V ] = distfun_expstat ( TODO ); Nsample =10000; mprintf ( " Variable Exponentielle ( mu = %f )\ n " , mu ); for n =[2 4 8 16] mprintf ( " n = %d \ n " ,n ); mprintf ( " E ( Sn )= %f \ n " ,V ); for i =1:5 X = distfun_exprnd ( TODO ); Sn = variance ( TODO ); mprintf ( " # %d , Mean ( Sn )= %f \ n " ,.. i , mean ( Sn )); end end 4.3.5 Expérience B Exercice 22 On considère X une variable de loi exponentielle de moyenne µ = 5. Sa variance est µ2 = 25. On veut comparer l’espérance de la variable aléatoire Sn?2 (estimateur non biaisé) et l’espérance de la variable aléatoire Sn2 (estimateur biaisé). On appelle cette correction la ”correction de Bessel”. 26 1. Pour n=2, générer Nsample=10000 réalisations de la variable aléatoire Sn?2 (estimateur non biaisé). Indication : utiliser la fonction variance(X,"c",0), ou bien, plus simplement, variance(X,"c"), pour obtenir l’estimateur non biaisé. 2. Calculer la variance empirique de Sn?2 et comparer avec la valeur attendue µ2 . 3. Pour n=2, générer Nsample=10000 réalisations de la variable aléatoire Sn2 (estimateur biaisé). Indication : utiliser la fonction variance(X,"c",1) pour obtenir l’estimateur biaisé. 4. Calculer la variance empirique de Sn2 et comparer avec la valeur attendue µ2 . Vérifier que la variance biaisée est proche de la valeur attendue pour cet estimateur, mais qu’elle est assez loin de la variance de la variable. Toutefois, le cas n = 2 est un cas extrême : lorsque n augmente, la différence entre la variance empirique biaisée et non biaisée tend vers zéro. 4.4 4.4.1 Estimation d’une probabilité de dépassement Rappel de cours Soit X une variable aléatoire et xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. Soit s ∈ R un seuil. On souhaite estimer la probabilité de dépassement : pf = P (X > s). Soit Yi la variable dont les réalisations sont 1 si xi > s 0 sinon. yi = Soit b la variable définie par : bn = y1 + y2 + ... + yn . La probabilité de dépassement pf est estimée par p̃f = bn . n La variable Bn = Y1 + Y2 + . . . + Yn est une variable binomiale de paramètres pf et n. Par conséquent, son espérance est npf et sa variance est npf (1 − pf ). L’espérance de la variable Bn P̃f = n est donc pf et sa variance est pf (1 − pf )/n. Soit p̃f une estimation Monte-Carlo de la probabilité pf . Soit f le quantile d’ordre α/2 de la loi normale standard : f = Φ−1 (α/2). Soit l’intervalle In = [p̃f − ∆n , p̃f + ∆n ] . avec r p̃f (1 − p̃f ) . n Alors In est un intervalle de confiance approché à 1 − α pour la proportion pf , c’est à dire que ∆n = f P (In 3 pf ) ≈ 1 − α. L’approximation vient du fait qu’on remplace la variance exacte pf (1 − pf )/n qui dépend de la valeur inconnue pf par son estimation p̃f (1 − p̃f )/n. 27 4.4.2 Expérience A Exercice 23 On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe le seuil s = 104 et on souhaite estimer pf = P (X > s). 1. Calculer la probabilité de dépassement exacte pfExacte. Indication : utiliser la fonction distfun logncdf, ainsi que l’option lowertail=%f (pour obtenir la queue haute de distribution P (X > s), et non pas la queue basse P (X < s)). 2. Générer un vecteur de Nsample=10000 réalisations de la variable aléatoire X. Indication : utiliser distfun lognrnd. 3. Calculer le nombre de réalisations au dessus du seuil. Indication : utiliser la fonction find. 4. Calculer la proportion de réalisations qui sont au dessus du seuil. Note : l’utilisation de l’option lowertail est importante pour la précision du résultat : – lorsque la probabilité p est entre 0 et 0.5, on devrait utiliser la queue basse (c’est à dire l’option lowertail=%t), – lorsque la probabilité p est entre 0.5 et 1, alors q = 1 − p est entre 0 et 0.5 et on devrait utiliser la queue haute (c’est à dire lowertail=%f). 4.4.3 Sortie Variable Log - normale mu =2.000000 sigma :3.000000 e +000 seuil :1.000000 e +004 Pf ( exact ):8.120665 e -003 Nombre de simulations :100000 Nombre de dépassements :819 Pf ( estimation ):8.190000 e -003 4.4.4 Squelette mu =2; sigma =3; seuil =1. e4 ; // Calcul exact pfExacte = distfun_logncdf ( TODO ); mprintf ( " Pf ( exact ): %e \ n " , pfExacte ); // Estimation Monte - Carlo Nsample =100000; X = distfun_lognrnd ( TODO ); i = find (X > seuil ); nfail = size (i , " * " ); mprintf ( " Nombre de depassements : %d \ n " , nfail ); pf = TODO ; mprintf ( " Pf ( estimation ): %e \ n " , pf ); 4.4.5 Expérience B Exercice 24 Pour les mêmes données que l’expérience A, on souhaite estimer un intervalle de confiance à 1 − α = 95% pour la probabilité pf . 1. Evaluer la probabilité α/2 et inverser la queue haute de la fonction de répartition de la loi normale standard. 2. Estimer les bornes de l’intervalle de confiance. 28 4.5 4.5.1 Estimation d’un quantile Rappel de cours Soit X une variable aléatoire de densité de probabilité f et de fonction de répartition F . Soit α ∈ [0, 1] une probabilité. Soit yα le quantile exact d’ordre α, défini par l’équation yα = F −1 (α). Soit xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. On suppose que les réalisations sont triées par ordre croissant, i.e. x1 < x2 < ... < xn . Le quantile empirique d’ordre 1 − α est yα,n = xi , où i = dαne. Asymptotiquement, la distribution du quantile empirique yα,n est celle d’une loi normale de moyenne µ = yα et de variance α(1 − α) . σ2 = nf (yα )2 4.5.2 Expérience A Exercice 25 On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe le seuil α = 0.1 et on souhaite calculer x tel que P (X < x) = α. 1. Calculer le quantile exact xExact. Indication : utiliser distfun logninv. 2. Générer un vecteur de Nsample=10000 réalisations de la variable aléatoire X. Indication : utiliser distfun lognrnd. 3. Trier les réalisations par ordre croissant. Indication : utiliser gsort. 4. Calculer le rang, puis le quantile. 5. Comparer la valeur exacte et la valeur estimée. 4.5.3 Squelette mu =2; sigma =3; al =0.1; // Calcul exact xExact = distfun_logninv ( TODO ); mprintf ( " x ( exact ): %e \ n " , xExact ); // Estimation Monte - Carlo Nsample =100000; X = distfun_lognrnd ( TODO ); X = gsort (X , " g " ," i " ); i = floor ( Nsample * al ); x = X ( i ); mprintf ( " x ( estimation ): %e \ n " ,x ); 4.5.4 Sortie 29 Variable Log - normale mu =2.000000 sigma :3.000000 e +000 alpha :1.000000 e -001 x ( exact ):1.580799 e -001 Nombre de simulations :100000 x ( estimation ):1.576264 e -001 4.5.5 Expérience B Exercice 26 On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe le seuil α = 10−3 et on souhaite calculer x tel que P (X > x) = α. Notons que le quantile associé est différent de celui calculé dans l’expérience A précédente. 1. Calculer le quantile exact xExact. Indication : utiliser la fonction distfun logninv et l’option lowertail=%f. 2. Générer un vecteur de Nsample=10000 réalisations de la variable aléatoire X. Indication : utiliser distfun lognrnd. 3. Trier les réalisations par ordre décroissant. Indication : utiliser gsort. 4. Calculer le rang, puis le quantile. 5. Comparer la valeur exacte et la valeur estimée. 5 Exercices Statistiques Optionnels 5.1 5.1.1 Estimation de la moyenne Un peu de théorie Exercice 27 1. Montrer l’équation 17. 2. Montrer l’équation 18. 5.1.2 Expérience C (*) Exercice 28 On considère X une variable de loi normale standard. 1. Répéter l’expérience B. 2. Observer que l’adéquation entre l’histogramme empirique des réalisations de xn et la densité est vraie pour toute valeur de n : reproduire la figure 10. 3. Commenter le graphique. 5.1.3 Expérience D (*) Exercice 29 On considère X une variable de loi normale standard. 1. Pour n=2, tracer la densité de probabilité de la moyenne empirique xn , c’est à dire, tracer la densité de probabilité d’une loi normale de moyenne 0 et de variance 1/2. 2. Ajouter, sur le même graphique, la densité pour n=1,2,4,10 : reproduire la figure 11. 3. Voir que la densité se resserre autour de 0 : pourquoi ? 30 Figure 10 – Histogramme empirique et distribution de la moyenne empirique de m réalisations de variables standard normales. Figure 11 – Distribution de la moyenne empirique de m réalisations de variables standard normales. 31 5.2 5.2.1 Estimation de la variance Un peu de théorie On considère les estimateurs biaisé de la variance donné par l’équation 22 et l’estimateur non biaisé donné par l’équation 23, page 25. Exercice 30 Supposons que X1 , . . . , Xn sont des variables indépendantes et identiquement distribuées, de moyenne µ et de variance σ 2 . 1. Montrer que n Sn2 = 1X 2 2 X − X n. n i=1 i (26) 2. Montrer l’équation 24, page 25. 3. Montrer l’équation 25. 5.2.2 Expérience C (*) Exercice 31 On considère X une variable de loi exponentielle de moyenne µ = 1. Avec un échantillon donné, on souhaite vérifier que la différence entre la variance biaisée et la variance non biaisée se réduit lorsque n augmente. L’objectif est de reproduire la figure 12. 1. Générer Nsample=10000 réalisations de la variable aléatoire X. 2. Pour n=1,2,...,Nsample, calculer la variance empirique biaisée et non biaisée des réalisations de 1 à n. 3. Faire un graphique permettant de comparer les deux variances. Utiliser une échelle logarithmique pour n. Calculer la variance exacte de la variable aléatoire, et la tracer sur le même graphique. 5.3 5.3.1 Estimation d’une probabilité de dépassement Expérience C (*) Exercice 32 On souhaite tester une technique de stabilisation de la variance fondée sur la transformation √ g(p) = arcsin ( p) Soit p̃f une estimation Monte-Carlo de la proportion pf . Considérons l’intervalle h i 2 2 In = sin (an − δn ) , sin (an + δn ) , avec an = arcsin p p̃f , (27) δn = F −1 (1 − α/2) √ , 2 n (28) où F est la fonction de répartition de la loi normale standard. Alors In est un intervalle de confiance asymptotique (i.e. quand n est grand) à 1 − α pour la proportion pf , c’est à dire que : P (I 3 pf ) ≈ 1 − α. 32 Figure 12 – Comparaison entre la variance empirique biaisée et la variance empirique non biaisée lorsque n, le nombre de réalisations, augmente. La ligne noire représente la variance exacte de la variable aléatoire. 1. Evaluer la probabilité α/2 et inverser la queue haute de la fonction de répartition de la loi normale standard pour calculer f . 2. Estimer les bornes de l’intervalle de confiance. 3. Faire varier la probabilité de défaillance entre 10−3 et 10−2 . 4. Comparer avec l’intervalle de confiance obtenu par le théorème central (c’est à dire celui de l’expérience B). 5. Tracer les bornes de l’intervalle issu du théorème centrale limite en bleu et les bornes de l’intervalle issu de Arcsin en rouge et reproduire la figure 13. 5.3.2 Expérience D (*) Exercice 33 Le but de cette expérience est de vérifier la distribution de npf lorsque X est une variable exponentielle de moyenne µ = 3. On considère le seuil s = 8 ainsi que n = 200 réalisations. On répète cette expérience Nrepeat=500 fois. 1. Calculer la probabilité de dépassement exacte pfExacte du seuil s. 2. Générer une matrice avec n=200 lignes et Nrepeat=500 colonnes, contenant des réalisations indépendantes de la variable X. 3. Calculer la matrice y, qui vaut zéro si il n’y a pas de dépassement et un sinon. 4. En déduire le vecteur b, de Nrepeat lignes, contenant le nombre de dépassements pour chaque expérience. Indication : utiliser la fonction sum. 5. En déduire le vecteur pf de Nrepeat lignes, contenant la proportion de dépassement pour chaque expérience. 6. Calculer la densité de probabilité de la loi binomiale de paramètres pfExacte et n aux points correspondants. 7. Tracer l’histogramme de la variable pf*n. 8. Ajouter sur le graphique la densité de la loi binomiale correspondante. 33 Figure 13 – Estimation de l’intervalle de confiance pour une probabilité de dépassement de seuil. On considère une probabilité entre 10−3 et 10−2 pour n = 1000 réalisations. 9. Ajouter sur le graphique la probabilité de dépassement exacte pf . A la fin de l’exercice, vous devriez pouvoir obtenir la figure 14. 5.4 Intervalle de confiance de la moyenne d’une variable normale (théorie) Exercice 34 Soit xi des réalisations indépendantes de la variable aléatoire X, pour i = 1, 2, ..., n. Soit α ∈ [1/2, 1]. Si X est une variable normale de moyenne µ et de variance σ 2 , alors l’intervalle donné par l’équation 19, page 22, est un intervalle de confiance à 1 − α pour la moyenne. Démontrer l’équation 20, page 22. 5.5 5.5.1 Distribution de la moyenne d’une variable normale (*) Expérience A (variance connue) Exercice 35 Soit X une variable aléatoire de loi normale de paramètres µ et σ. Soit xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. Soit In l’intervalle In = [xn − δn , xn + δn ], σ δn = z1−α/2 √ , n où z1−α/2 est le quantile d’ordre 1−α/2 de la loi normale standard. Alors In est un intervalle de confiance d’ordre 1 − α pour l’espérance : P (In 3 E(X)) = 1 − α. On souhaite vérifier cette propriété pour une variable normale de moyenne µ = 2 et σ = 3. 1. Générer Nsample=1000 réalisations de la variable X. 2. Calculer la moyenne empirique. 3. Calculer le quantile d’ordre 1 − α/2 de la loi normale standard. 34 Figure 14 – Distribution des probabilités de dépassement empiriques du seuil s = 8, pour n = 200 réalisations d’une variable exponentielle de moyenne µ = 3, avec une expérience répétée 500 fois. 4. Estimer les bornes de l’intervalle de confiance. 5.5.3 Expérience B (variance inconnue) Exercice 36 Soit X une variable aléatoire de loi normale de paramètres µ et de variance inconnue. Considérons l’intervalle Sn , In = [xn − δn , xn + δn ], δn = t1−α/2,n−1 √ n−1 où t1−α/2,n−1 est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de liberté et Sn est l’écart-type empirique (biaisé). Alors In est un intervalle de confiance d’ordre 1 − α pour l’espérance E(X). 1. Pour le même échantillon que celui calculé dans l’expérience A, calculer la variance empirique (biaisée). 2. Calculer le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de liberté. 3. Estimer les bornes de l’intervalle de confiance. 4. Comparer avec l’intervalle calculé dans l’expérience A. 5.5.5 Expérience C Exercice 37 On considère X une variable de loi normale de paramètres µ et σ. On souhaite vérifier que la variable Q= nSn2 σ2 suit une loi du chi-deux de paramètre n − 1. Cette loi est notée χ2n−1 . 1. Générer une matrice de Nsample=10000 par n=5 réalisations de la variable aléatoire X. 2. Calculer Nsample=10000 réalisations de la variance empirique biaisée. 35 Figure 15 – Estimation de la moyenne empirique. Distribution de la variable Q = (nSn2 )/σ 2 lorsque X suit une loi normale, dans le cas n = 5. Comparaison avec la loi du chi-deux à n − 1 degrés de liberté. 3. En déduire Nsample=10000 réalisations de la variable Q. 4. Tracer un histogramme avec 50 classes dans l’intervalle [0, 10] de la variable aléatoire Q. 5. Calculer la densité de la loi du chi-deux à n − 1 = 4 degrés de liberté, dans l’intervalle [0, 10]. Indication : utiliser la fonction distfun chi2pdf. 6. Reproduire la figure 15. 5.5.6 Expérience D Exercice 38 On considère X une variable de loi normale de paramètres µ et σ. On souhaite vérifier que la variable T =p xn − µ Sn2 /(n − 1) suit une loi de Student de paramètre n − 1. Cette loi est notée Tn−1 . 1. Générer une matrice de Nsample=10000 par n=5 réalisations de la variable aléatoire X. 2. Calculer Nsample=10000 réalisations de T . 3. Tracer un histogramme avec 50 classes dans l’intervalle [−5, 5] de la variable aléatoire T . 4. Calculer la densité de la loi du T de Student à n − 1 = 4 degrés de liberté, dans l’intervalle [−5, 5]. Indication : utiliser la fonction distfun tpdf. 5. Reproduire la figure 16. 5.6 5.6.1 Estimation d’un quantile Expérience C (*) Exercice 39 On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe un seuil α = 10−3 et on souhaite calculer x tel que P (X > x) = α. 36 p Figure 16 – Estimation de la moyenne empirique. Distribution de la variable T = (xn −µ)/ Sn2 /(n − 1) lorsque X suit une loi normale, dans le cas n = 5. Comparaison avec la loi du T de Student à n − 1 degrés de liberté. 1. Calculer le quantile exact, par inversion de la fonction de répartition. 2. Pour Nsample=210 , 211 , ..., 220 , estimer le quantile correspondant par Monte-Carlo. 3. Tracer un graphique qui montre la convergence de l’estimateur Monte-Carlo vers la valeur exacte : reproduire la figure 17. Constater qu’il faut un grand nombre de simulations pour que l’estimateur converge, lorsque α est soit petit, en tête ou en queue de distribution. 5.6.2 Expérience D (*) Exercice 40 On considère X une variable uniforme dans [0, 1] et on estime son quantile à 95%. Le quantile exact est x = 0.95. On utilise une simulation de Monte-Carlo comportant Nsample=200 réalisations. On répète l’expérience nRepeat=10000 fois. On souhaite voir la distribution des quantiles à 95%. 1. Générer une matrice de nombres aléatoires uniformes dans [0, 1] avec nRepeat=10000 lignes et Nsample=200 colonnes. 2. Calculer l’indice correspondant au quantile à 95%. 3. Trier la matrice X par colonnes croissantes. 4. Extraire la colonne correspondant au quantile empirique. 5. Tracer son histogramme et superposer le quantile exact : reproduire la figure 18. 5.6.3 Expérience E Exercice 41 On cherche à voir la distribution du quantile empirique yα,n lorsque X est une variable normale de moyenne 4 et d’écart-type 7. Pour cela on considère le quantile empirique associé à un échantillon de taille Nsample. On répète le calcul nRepeat fois, et on observe la distribution du quantile empirique. 1. Générer une matrice X de nombres aléatoires normales de moyenne 4 et d’écart-type 7 avec nRepeat=10000 lignes et Nsample=200 colonnes. 2. Trier la matrice X par colonnes croissantes. 37 Figure 17 – Convergence du quantile empirique à 10−3 lorsque le nombre de simulations n augmente. Figure 18 – Distribution du quantile empirique à 95% d’une variable uniforme, par une méthode de Monte-Carlo simple sur 200 réalisations, répétée 10000 fois. 38 Figure 19 – Distribution du quantile empirique à 95% d’une variable normale, par une méthode de Monte-Carlo simple sur 200 réalisations, répétée 10000 fois. On compare avec la distribution asymptotique. 3. Calculer l’indice i correspondant au quantile à 95% et extraire la colonne d’indice i correspondant au quantile empirique. 4. Tracer l’histogramme du quantile empirique et dessiner le quantile exact. 5. Calculer la variance de la distribution asymptotique du quantile. 6. Tracer la densité de probabilité de la distribution asymptotique du quantile empirique : reproduire la figure 19. 5.7 5.7.1 Quantile de Wilks (*) Expérience A Exercice 42 Calculer les rangs des quantiles de Wilks associés à n = 100 et α = 0.5 (médiane) pour : 1. β = 0.5 2. β = 0.95 Calculer les rangs des quantiles de Wilks associés à α = 0.95 et β = 0.95 pour : 1. n = 53 2. n = 59 3. n = 124 4. n = 153 5.7.2 Expérience B Exercice 43 On considère une variable X uniforme dans [0, 1]. On calcule le quantile empirique sur 200 réalisations indépendantes de la variable X. 1. Générer 10000 réalisations du quantile empirique et tracer son histogramme. 2. Générer 10000 réalisations du quantile de Wilks à 95% de confiance et tracer son histogramme. 3. Reproduire la figure 20. 39 Figure 20 – Distribution du quantile à 95% d’une variable uniforme, par une méthode de Monte-Carlo simple sur 200 réalisations, répétée 10000 fois. Comparaison avec le quantile de Wilks. 5.8 5.8.1 Fonction de répartition empirique Expérience A Exercice 44 On considère une variable X de loi normale standard. On souhaite comparer la fonction de répartition empirique avec n=100 réalisations indépendantes et la fonction de répartition. 1. Générer n=100 réalisations de la variable X. 2. Ordonner les réalisations par ordre croissant. 3. Evaluer la fonction de répartition pour les réalisations. 4. Créer un graphique présentant la fonction de répartition empirique et la fonction de répartition. 5. Reproduire la figure 21. 5.8.2 Expérience B Exercice 45 1. Répéter l’expérience A, avec X une variable exponentielle de moyenne µ = 5. 2. Reproduire la figure 22. 5.8.3 Expérience C (*) Exercice 46 On souhaite évaluer la convergence de la fonction de répartition empirique sur n réalisations, lorsque n augmente. 1. Répéter l’expérience B, avec n=100,200,500,1000. 2. Voir la figure 23. 40 Figure 21 – Fonction de répartition de la loi normale standard et fonction de répartition empirique avec 100 réalisations indépendantes. Figure 22 – Fonction de répartition de la loi exponentielle de paramètre µ = 5 et fonction de répartition empirique avec 100 réalisations indépendantes. 41 Figure 23 – Convergence de la fonction de répartition empirique de la loi exponentielle de paramètre µ = 5 vers la fonction de répartition. 42 5.9 5.9.1 QQ-Plot Rappel de cours Soit X et Y deux variables aléatoires, de fonctions de répartion FX et FY . Soit xi et yi des réalisations indépendantes de X et Y , pour i = 1, 2, ..., n. Le QQ-plot (quantile empirique,quantile empirique) permet de voir si la distribution FX est proche de FY , en calculant les distributions empiriques des deux échantillons. On ordonne les réalisations par ordre croissant, de telle sorte que x1 < x2 < ... < xn et y1 < y2 < ... < yn . Alors x1 est le quantile empirique associé à la probabilité p1 = 0, puisqu’il n’y a pas de réalisation strictement inférieure à x1 . De même, x2 est le quantile empirique associé à la probabilité p2 = 1/n, puisqu’il y a une seule réalisation strictement inférieure à x2 (c’est x1 ). De manière générale, xi est le quantile empirique associé à la probabilité pi = (i − 1)/n, pour i = 1, 2, ..., n. En effet, il y a i − 1 réalisations strictement inférieures à xi , puisqu’il s’agit des réalisations x1 , x2 , ..., xi−1 . Le QQ-plot est le graphique présentant les couples (xi , yi ), pour i = 1, 2, ..., n. Si les distributions de X et Y sont les mêmes, alors les couples devraient être placés dans le voisinage d’une droite. Pour le vérifier, on peut tracer une droite qui relie les premiers et troisièmes quartiles. Le QQ-plot (quantile empirique,quantile théorique) permet de comparer la distribution empirique d’un échantillon avec une distribution de test FY . En effet, si on ne dispose que d’un échantillon x1 , . . . , xn , alors on peut calculer les quantiles théoriques yi = FY−1 (pi ), où FY−1 est la fonction de répartition inverse (quantile) que l’on souhaite tester. Si les points (xi , yi ) sont proches de la diagonale, alors la distribution de X est proche de FY . 5.9.2 Expérience A1 Exercice 47 On souhaite tracer le QQ-plot d’un échantillon de 50 réalisations d’une variable normale de moyenne µ = 1 et d’écart-type σ = 3. L’objectif est de reproduire la figure 24. 1. Générer les réalisations x. 2. Ordonner les réalisations par ordre croissant. 3. Calculer les probabilités p associées à chaque réalisation. 4. Calculer les quantiles de la loi normale de moyenne µ = 1 et d’écart-type σ = 3, en inversant la fonction de répartition pour les probabilités p. 5. Tracer le QQ-plot des réalisations, ainsi que la diagonale. 5.9.3 Squelette function [y , p ] = quantileEmpirique ( x ) n = length ( x ); y = gsort (x , " g " ," i " ); p = [1: n ] / ( n +1); endfunction n =50; // taille de l ’ echantillon mu =1; 43 Figure 24 – QQ-plot pour 50 réalisations d’une variable normale de moyenne µ = 1 et d’écart-type σ = 3. sigma = 3; x = distfun_normrnd ( TODO ); [x , p ]= quantileEmpirique ( x ); y = distfun_norminv ( TODO ); scf (); plot (x ,y , " bo " ); plot ([ x ( n /4) , x (3* n /4)] ,[ y ( n /4) , y (3* n /4)] , "r - " ); xtitle ( " QQ Plot " ," Data Quantile " ," Normal Quantile " ); 5.9.4 Expérience A2 Exercice 48 On souhaite observer le QQ-plot d’une variable normale standard, lorsqu’on considère des probabilités p régulièrement espacées. L’objectif est de reproduire la figure 25. 1. Calculer les quantiles q d’une variable normale standard, pour 20 valeurs de probabilité p uniformément réparties entre 0.01 et 0.99. 2. Dessiner ces quantiles sur un QQ-plot, en traçant les couples de points (qi , qi ). 3. Tracer les verticales et les horizontales correspondantes. 5.9.5 Expérience B (*) Exercice 49 Répéter l’expérience A, avec la fonction qqplot du module Stixbox. Reproduire la figure 26. 5.9.6 Expérience C (*) Exercice 50 44 Figure 25 – QQ-plot pour 20 quantiles d’une variable normale de moyenne µ = 0 et d’écart-type σ = 1. On souhaite observer un QQ-plot sur des données réelles, et non des données simulées comme dans les expériences précédentes. On s’intéresse aux données de température corporelle et de pulsations cardiaques issues des articles suivants : 1. Mackowiak, P. A., Wasserman, S. S., and Levine, M. M. (1992), ”A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich”, Journal of the American Medical Association, 268, 1578-1580. 2. ”Datasets and Stories”, ”What’s Normal ? – Temperature, Gender, and Heart Rate” in the Journal of Statistics Education (Shoemaker 1996). Les données sont fournies dans le fichier "normtemp.dat.txt". Il y a trois colonnes : 1. Body temperature (degrees Fahrenheit), 2. Gender (1 = male, 2 = female), 3. Heart rate (beats per minute). 1. Lire les données dans la matrice x. Indication : utiliser fscanfMat. 2. Retirer la seconde colonne de la matrice x (c’est le sexe des participants, qui ne nous intéresse pas ici). 3. Faire l’hypothèse que les deux variables (température et pulsations) suivent une loi normale, et estimer la moyenne et la variance de chaque variable. 4. Tracer le qq-plot de la température et des pulsations, en faisant l’hypothèse de normalité. 5. Tracer l’histogramme empirique pour chaque variable. 6. Reproduire la figure 27. 7. Identifier les zones où l’hypothèse de normalité est discutable. 5.9.7 Expérience D (*) Exercice 51 On s’intéresse aux données extraites de ”Les 500 premiers groupes français et européens”, Enjeux-Les Echos, hors-série, novembre 1998 issues de ”La France en faits et chiffres” (2000), INSEE. On dispose de 45 groupes francais de l’industrie et des services pour l’annee 1997 : 45 Figure 26 – QQ-plot pour 10, 50, 100 et 1000 réalisations d’une variable normale de moyenne µ = 1 et d’écart-type σ = 3. 46 Figure 27 – Température du corps et pulsations cardiaques de 130 individus. 47 Figure 28 – Nombre de salariés (en milliers) et revenu net (en milliards de Francs) de 45 entreprises françaises et européennes (1998). 1. chiffre d’affaire en milliards de francs (1ère colonne), 2. nombre de salariés en milliers (2ème colonne), 3. revenu net en milliards de francs (3ème colonne). Les données sont fournies par le 23ième dataset de la fonction getdata du module Stixbox. On cherche à voir si le nombre de salariés et le revenu net suivent une loi normale. 1. Lire les données. Indication : utiliser la fonction getdata. 2. Retirer la colonne numéro (Chiffre d’Affaire), qui ne nous intéresse pas dans cette étude. 3. Estimer la moyenne empirique et la variance empirique des deux variables. 4. Tracer le qq-plot et l’histogramme pour chacune des deux variables. 5. Reproduire la figure 28. 6. Identifier les zones des données où l’hypothèse de normalité est discutable. 5.9.8 Expérience E (*) Exercice 52 Tracer le qq-plot et l’histogramme empirique de 10 000 réalisations d’une variable uniforme dans [0, 1], en faisant l’hypothèse que les données suivent une loi normale. Reproduire la figure 29. 48 Figure 29 – QQ-plot et histogramme de 10 000 réalisations d’une variable uniforme dans [0, 1]. Figure 30 – QQ-plot et histogramme de 10 000 réalisations d’une variable exponentielle de moyenne µ = 1. 5.9.9 Expérience F (*) Exercice 53 Tracer le qq-plot et l’histogramme empirique de 10 000 réalisations d’une variable exponentielle de moyenne µ = 1, en faisant l’hypothèse que les données suivent une loi normale. Reproduire la figure 30. 5.9.10 Expérience G (*) Exercice 54 Tracer le qq-plot et les histogrammes empiriques de 10 000 réalisations de deux variables normales : – une variable X de moyenne µ = 0 et d’écart-type σ = 1, – une variable Y de moyenne µ = 0 et d’écart-type σ = 2. Reproduire la figure 31. 49 Figure 31 – QQ-plot et histogramme de 10 000 réalisations d’une variable normale de moyenne µ = 0 et d’écart-type σ = 1 et d’une variable normale de moyenne µ = 0 et d’écart-type σ = 2. Références [1] Paul L. Meyer. Introductory Probability and Statistical Applications. Addison Wesley, 1970. [2] Sheldon Ross. Introduction to Probability and Statistics for Engineers and Scientists, 3rd Edition. Elsevier, 2004. [3] Gilbert Saporta. Probabilites Analyse des Données et Statistique, 2ème Edition. Technip, 2006. [4] Wikipedia. 68-95-99.7 rule — wikipedia, the free encyclopedia, 2015. [Online ; accessed 19-February2015]. [5] Wikipedia. Poisson distribution — wikipedia, the free encyclopedia, 2015. [Online ; accessed 19February-2015]. R [6] A. T. Yalta. The accuracy of statistical distributions in microsoftexcel 2007. Comput. Stat. Data Anal., 52(10) :4579–4586, Jun 2008. 50