TP Scilab Probabilités

publicité
TP Scilab
Probabilités - Statistiques
Michael Baudin (EDF R&D)
Jean-Marc Martinez (CEA)
23 février 2015
1
c 2011 - 2015 - Michael Baudin
Copyright This file must be used under the terms of the Creative Commons Attribution-ShareAlike 3.0 Unported
License :
http://creativecommons.org/licenses/by-sa/3.0
2
Résumé
Ce document est une feuille de route pour le TP Probabilités-Statistiques. Dans la première
partie, nous faisons quelques manipulations sur le thème des probabilités, avec Scilab et le module
distfun. Dans la seconde partie, nous faisons quelques manipulations sur le thème des statistiques,
avec Scilab et le module Stixbox.
Table des matières
1 Introduction
1.1 Vue d’ensemble . . .
1.2 Contact . . . . . . .
1.3 Outils et Documents
1.4 Fichiers . . . . . . .
1.5 Installation . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
5
6
6
2 Exercices Probabilités
2.1 Loi binomiale . . . . . .
2.1.1 Rappel de cours
2.1.2 Exercice . . . . .
2.1.3 Squelette . . . .
2.1.4 Sortie . . . . . .
2.2 Loi uniforme . . . . . .
2.2.1 Rappel de cours
2.2.2 Exercice . . . . .
2.2.3 Squelette . . . .
2.3 Loi normale . . . . . . .
2.3.1 Rappel de cours
2.3.2 Exercice . . . . .
2.3.3 Squelette . . . .
2.4 Règle des trois sigmas .
2.4.1 Squelette . . . .
2.5 Théorème limite central
2.5.1 Rappel de cours
2.5.2 Exercice . . . . .
2.5.3 Squelette . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
7
8
8
8
8
8
9
10
10
10
10
11
11
11
11
11
12
3 Exercices Probabilités Optionnels
3.1 Loi binomiale (théorie) . . . . . . . . . . . . . . . . .
3.2 Loi uniforme (théorie) . . . . . . . . . . . . . . . . .
3.3 Loi normale (théorie) . . . . . . . . . . . . . . . . . .
3.4 Produits défaillants sur une ligne de production (*) .
3.4.1 Squelette . . . . . . . . . . . . . . . . . . . .
3.5 Puissance dissipée par une résistance (*) . . . . . . .
3.6 Lien entre la loi de Poisson et la loi normale (*) . . .
3.7 Changement de loi : uniforme vers exponentielle (*)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
14
15
15
15
16
16
4 Exercices Statistiques
4.1 Estimation de la moyenne
4.1.1 Rappel de cours .
4.1.2 Expérience A1 . .
4.1.3 Squelette . . . . .
4.1.4 Sortie . . . . . . .
4.1.5 Expérience A2 . .
4.1.6 Squelette . . . . .
4.1.7 Sortie . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
18
18
19
19
19
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
22
22
23
23
23
24
24
25
25
25
25
26
26
26
27
27
28
28
28
28
29
29
29
29
29
30
5 Exercices Statistiques Optionnels
5.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Un peu de théorie . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Expérience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Un peu de théorie . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Estimation d’une probabilité de dépassement . . . . . . . . . . . . . .
5.3.1 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Expérience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Intervalle de confiance de la moyenne d’une variable normale (théorie)
5.5 Distribution de la moyenne d’une variable normale (*) . . . . . . . . .
5.5.1 Expérience A (variance connue) . . . . . . . . . . . . . . . . . .
5.5.3 Expérience B (variance inconnue) . . . . . . . . . . . . . . . . .
5.5.5 Expérience C . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.6 Expérience D . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Estimation d’un quantile . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Expérience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Expérience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.3 Expérience E . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Quantile de Wilks (*) . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.1 Expérience A . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.2 Expérience B . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.8 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . .
5.8.1 Expérience A . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.8.2 Expérience B . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
30
30
30
30
32
32
32
32
32
33
34
34
34
35
35
36
36
36
37
37
39
39
39
40
40
40
4.2
4.3
4.4
4.5
4.1.8 Expérience B . . . . . . . . . . . . . .
4.1.9 Squelette . . . . . . . . . . . . . . . .
Intervalle de confiance d’une moyenne . . . .
4.2.1 Rappel de cours . . . . . . . . . . . .
4.2.2 Expérience A . . . . . . . . . . . . . .
4.2.3 Squelette . . . . . . . . . . . . . . . .
4.2.4 Sortie . . . . . . . . . . . . . . . . . .
4.2.5 Expérience B . . . . . . . . . . . . . .
4.2.6 Squelette . . . . . . . . . . . . . . . .
4.2.7 Sortie . . . . . . . . . . . . . . . . . .
Estimation de la variance . . . . . . . . . . .
4.3.1 Rappel de cours . . . . . . . . . . . .
4.3.2 Expérience A . . . . . . . . . . . . . .
4.3.3 Sortie . . . . . . . . . . . . . . . . . .
4.3.4 Squelette . . . . . . . . . . . . . . . .
4.3.5 Expérience B . . . . . . . . . . . . . .
Estimation d’une probabilité de dépassement
4.4.1 Rappel de cours . . . . . . . . . . . .
4.4.2 Expérience A . . . . . . . . . . . . . .
4.4.3 Sortie . . . . . . . . . . . . . . . . . .
4.4.4 Squelette . . . . . . . . . . . . . . . .
4.4.5 Expérience B . . . . . . . . . . . . . .
Estimation d’un quantile . . . . . . . . . . . .
4.5.1 Rappel de cours . . . . . . . . . . . .
4.5.2 Expérience A . . . . . . . . . . . . . .
4.5.3 Squelette . . . . . . . . . . . . . . . .
4.5.4 Sortie . . . . . . . . . . . . . . . . . .
4.5.5 Expérience B . . . . . . . . . . . . . .
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5.9
5.8.3 Expérience C (*)
QQ-Plot . . . . . . . . .
5.9.1 Rappel de cours
5.9.2 Expérience A1 .
5.9.3 Squelette . . . .
5.9.4 Expérience A2 .
5.9.5 Expérience B (*)
5.9.6 Expérience C (*)
5.9.7 Expérience D (*)
5.9.8 Expérience E (*)
5.9.9 Expérience F (*)
5.9.10 Expérience G (*)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bibliographie
1
40
43
43
43
43
44
44
44
45
48
49
49
49
Introduction
1.1
Vue d’ensemble
Dans ce TP, nous présentons des exercices de probabilités et de statistiques avec Scilab. Ces exercices
utilisent le module distfun, qui fournit les lois de probabilité classiques. Ce module est compatible avec
Matlab, dans le sens où les fonctions sont les mêmes.
Bien que nous conseillons de faire tous les exercices, il est possible que nous manquions de temps lors
des travaux pratiques. Les exercices marqués d’une étoile (*) sont optionnels, et peuvent être ignorés
pendant la séance. Dans tous les cas, à la moitié de la séance, vous passerez à la seconde partie du TP,
c’est à dire aux statistiques.
Pour chaque exercice, nous fournissons :
– un rappel de cours,
– un énoncé, avec des fonctions Scilab à utiliser,
– un squelette de solution, avec des sections ”TODO” à compléter,
– une solution commentée.
1.2
Contact
[email protected]
Remplacer ”DONOTSPAM” par ”edf”.
1.3
Outils et Documents
Dans cette partie, nous donnons la liste des outils et documents qui sont utilisés dans ce TP.
Ce TP utilise la dernière version de Scilab, la v5.4.0, qui est téléchargeable à l’adresse :
http://www.scilab.org/
Pour s’initier a Scilab, on peut consulter ”Introduction to Scilab”, Michael Baudin, 2008-2011 :
http://forge.scilab.org/index.php/p/docintrotoscilab/downloads/
Pour programmer avec Scilab, on peut consulter ”Programming in Scilab”, Michael Baudin, 20082011 :
http://forge.scilab.org/index.php/p/docprogscilab/downloads/
Le module Scilab distfun est open-source. Le code source est développé sur la Forge Scilab :
http://forge.scilab.org/index.php/p/distfun/
5
1.4
Fichiers
J’ai à votre disposition un répertoire contenant les fichiers suivants.
– roadmap : ce document en LATEX
– scripts : les scripts utilisés dans ce TP
1.5
Installation
Les exercices dans ce TP nécessitent les toolbox suivantes : Scilab 5.4.0, NISP 2.5, distfun 0.6, stixbox
2.0. Ces modules (et leurs dépendances) nécessitent environ 28MB sur un système Linux 32 bits (sans
compter l’installation de Scilab).
Si on dispose d’une connexion internet, on peut télécharger et installer ces modules en tapant, dans
la console Scilab :
atomsInstall ( " NISP " )
atomsInstall ( " distfun " )
atomsInstall ( " stixbox " )
Puis on redémarre Scilab.
Sur Linux, il est courant d’avoir des problèmes graphiques avec Scilab 5.4.0. La raison est que certains
drivers graphiques ne peuvent pas être utilisés correctement par Scilab. La situation typique est qu’on
voit apparaı̂tre le message suivant quand on crée un graphique 3D.
--> plot3d ()
WARNING : Due to your configuration limitations ,
Scilab switched in a mode
where mixing uicontrols and graphics is not available .
Type " help usecanvas " for more information .
Le problème peut également se présenter sous la forme d’une fenêtre graphique vide, noire, ou bien encore
par un plantage de Scilab.
La solution peut alors consister à désactiver l’utilisation d’un certain composant graphique interne à
Scilab, en utilisant la fonction usecanvas.
--> usecanvas ( %f );
WARNING : Despite of our previous warning ,
you chose to use Scilab with advanced graphics capabilities .
Type " help usecanvas " for more information .
2
2.1
2.1.1
Exercices Probabilités
Loi binomiale
Rappel de cours
Soit N un entier positif et pr une probabilité dans l’intervalle (0, 1). On réalise une expérience de
Bernoulli, dans laquelle on obtient un succès avec une probabilité pr et un échec avec une probabilité
1 − pr . On répète cette expérience N fois. Soit X le nombre de succès. Alors X suit une loi binomiale de
paramètres pr et N . Sa densité de probabilité est :
N
f (x, N, pr ) =
pxr (1 − pr )N −x ,
(1)
x
pour x = 0, 1, 2, ..., où le coefficient binomial est défini par :
N!
N
=
x
x!(N − x)!
6
(2)
Figure 1 – Loi Binomiale.
2.1.2
Exercice
Dans cet exercice, on calcule la probabilité d’obtenir x succès avec différentes fonctions Scilab : la
fonction factorial, la fonction specfun nchoosek et la fonction distfun binopdf. Bien sûr, vous devez
obtenir les mêmes résultats, mais l’exercice montre que la fonction distfun binopdf est la plus facile à
utiliser (et aussi la plus robuste).
Exercice 1
Calculer la probabilité d’observer x=1 succès dans une expérience de Bernoulli avec N=20 expériences,
dans laquelle chaque expérience a une probabilité de succès pr=0.5. Pour ce faire, suivez les instructions
suivantes.
– Voir la page d’aide help factorial. Voir les paramètres d’entrée, de sortie.
– Voir la page d’aide help specfun nchoosek. Cette fonction calcule le coefficient binomial. Voir les
paramètres d’entrée, de sortie.
– Voir la page d’aide help distfun binopdf. Cette fonction calcule la densité de probabilité (en
anglais, ”Probability Distribution Function”) de la loi binomiale.
– Calculer la probabilité d’observer x=1 succès dans une expérience de Bernoulli avec N=20 expériences, dans laquelle chaque expérience a une probabilité de succès pr=0.5 :
– avec la fonction factorial,
– avec la fonction specfun nchoosek,
– avec la fonction distfun binopdf.
– Enfin, dessiner la densité de probabilité pour les paramètres suivants :
– pr=0.5, N=20,
– pr=0.7, N=20,
– pr=0.5, N=40.
Pour cela, utiliser la fonction distfun binopdf ainsi que la fonction plot et reproduire la figure 1.
Notez qu’un seul appel à la fonction distfun binopdf est suffisant. En effet, la séquence d’appel :
P = distfun_binopdf (0: N ,N , pr )
calcule le vecteur ligne P, qui contient les probabilités pour x = 0, 1, ..., N .
– Pour comprendre le sel de l’implémentation de distfun binopdf, considérez les paramètres N=1030
et pr=0.5 et tentez de calculer P (X = 500) = 0.016063 [6].
7
2.1.3
Squelette
Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant.
N =20;
pr =0.5;
x =1;
// Avec factorial :
c = factorial ( TODO )/ factorial ( TODO )/ factorial ( TODO )
P = TODO
mprintf ( " P ( X =1) ( factorial )= %f \ n " ,P )
// Avec nchoosek :
P = specfun_nchoosek ( TODO )* TODO
mprintf ( " P ( X =1) ( nchoosek )= %f \ n " ,P )
// Avec binopdf :
P = distfun_binopdf ( TODO )
mprintf ( " P ( X =1) ( binopdf )= %f \ n " ,P )
//
scf ();
y1 = distfun_binopdf ( TODO );
plot (x , y1 , " bo - " )
y2 = distfun_binopdf ( TODO );
plot (x , y2 , " go - " )
y3 = distfun_binopdf ( TODO );
plot (x , y3 , " ro - " )
legend ([ " pr =0.5 , N =20 " ," pr =0.7 , N =20 " ," pr =0.5 , N =40 " ]);
xtitle ( " Binomial PDF " ," x " ," P ( x ) " )
2.1.4
Sortie
Le script précédent produit les sorties suivantes.
P ( X =1) ( factorial )
0.0000191
P ( X =1) ( nchoosek )
0.0000191
P ( X =1) ( binopdf )
0.0000191
2.2
2.2.1
Loi uniforme
Rappel de cours
Soit a et b deux réels tels que a < b. La variable X suit une loi uniforme de paramètres a et b si sa
densité est :
f (x, a, b) =
1
b−a
(3)
si x ∈ [a, b] et zéro sinon. L’espérance de X et sa variance sont
2.2.2
E(X)
=
V (X)
=
a+b
,
2
(b − a)2
.
12
(4)
(5)
Exercice
Exercice 2
– Voir la page d’aide help distfun unifrnd. Cette fonction génère des réalisations pseudo-aléatoires
(”Random”) indépendantes, de loi uniforme.
8
Figure 2 – Densité de probabilité théorique et histogramme empirique de 1000 réalisations d’une variable
aléatoire de loi uniforme.
–
–
–
–
Générer N=1000 réalisations d’une variable uniforme de paramètres a=6 et b=13.
Calculer l’espérance et la variance de la variable aléatoire, avec les équations 4 et 5.
Utiliser la fonction distfun unifstat et comparer.
Voir les pages d’aide des fonctions help mean et help variance. Estimer la moyenne empirique
et la variance empirique de la variable.
– Voir les pages d’aide des fonctions help histo et help distfun unifpdf.
– Créer un graphique en comparant l’histogramme empirique et la densité de probabilité.
2.2.3
Squelette
Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant.
N = 1000;
a = 6;
b = 13;
// Esperance :
m = TODO
// Variance :
v = TODO
[M , V ]= distfun_unifstat ( TODO )
R = distfun_unifrnd ( TODO );
mean ( R )
variance ( R )
// Graphique
a = 6;
b = 13;
data = distfun_unifrnd ( TODO );
scf ();
histo ( TODO )
x = linspace (a -1 , b +1 ,1000);
y = distfun_unifpdf ( TODO );
plot ( TODO )
xtitle ( " Uniform random numbers " ," X " ," Density " );
legend ([ " Empirical " ," PDF " ]);
9
Figure 3 – La loi de distribution normale de paramètres µ = 5 et σ = 7. A gauche, la densité de
probabilité. A droite, la fonction de répartition.
2.3
2.3.1
Loi normale
Rappel de cours
Soit µ ∈ R et σ > deux paramètres. La variable X suit la loi normale de moyenne µ et d’écart-type
σ si sa densité de probabilité est
1
(x − µ)2
f (x, µ, σ) = √ exp −
,
2σ 2
σ 2π
pour x ∈ R.
2.3.2
Exercice
Exercice 3
– Dessiner la densité de probabilité de la loi normale de paramètres mu=5 et sigma=7 en utilisant la
fonction exp.
– Voir la page d’aide help distfun normpdf. Cette fonction calcule la densité de probabilité (PDF)
de la loi normale.
– Dessiner la densité de probabilité de la loi normale de paramètres mu=5 et sigma=7 en utilisant
distfun normpdf. Reproduire la partie gauche de la figure 3.
– Voir la page d’aide help distfun normcdf. Cette fonction calcule la fonction de répartition (CDF)
de la loi normale.
– Dessiner la fonction de répartition de la loi normale de paramètres mu=5 et sigma=7. Reproduire
la partie droite de la figure 3.
2.3.3
Squelette
Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant.
// Plot the PDF ( with distfun_normpdf )
mu = 5;
sigma = 7;
scf ();
x = linspace ( TODO );
y = distfun_normpdf ( TODO );
plot (x ,y , "r - " )
xtitle ( " Densite de probabilite Normale - mu =5 , sigma =7 " ,..
" x " ," f ( x ) " );
// Plot the CDF
10
mu = 5;
sigma = 7;
scf ();
x = linspace ( TODO );
p = distfun_normcdf ( TODO );
plot (x ,p , "b - " )
xtitle ( " Fonction Repartition Normale - mu =5 , sigma =7 " ,..
" x " ," $P ( X \ leq x ) $ " );
2.4
Règle des trois sigmas
Exercice 4
Supposons que X est une variable aléatoire de loi normale, où µ est la moyenne et σ l’écart-type.
Alors :
P (µ − σ ≤ X ≤ µ + σ) ≈ 0.6827
P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 0.9545
P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.9973
Vérifier avec Scilab en utilisant la fonction distfun normcdf.
2.4.1
Squelette
Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant.
p1 = distfun_normcdf ( TODO ) - distfun_normcdf ( TODO )
p2 = distfun_normcdf ( TODO ) - distfun_normcdf ( TODO )
p3 = distfun_normcdf ( TODO ) - distfun_normcdf ( TODO )
2.5
2.5.1
Théorème limite central
Rappel de cours
Soit X une variable aléatoire uniforme dans [−4, 2]. Soit xi des réalisations indépendantes de la
variable X, pour i = 1, 2, ..., n. On considère la variable aléatoire :
Zn =
x1 + x2 + ...xn − nµ
√
nσ
La loi de Zn converge vers la loi normale standard, lorsque n est grand.
2.5.2
Exercice
On veut vérifier que la loi de Zn converge vers la loi normale standard.
Exercice 5
– Avec la fonction distfun unifrnd, générer un échantillon R avec N=10000 lignes et k=1 colonne,
de loi uniforme de paramètres a=-4 et b=2.
– Avec la fonction sum(R,"c"), faire la somme des colonnes et calculer Z.
– Avec la fonction histo, tracer l’histogramme empirique de Z.
– Répéter avec k=2,4,8 et reproduire la figure 4.
– Optionnel. Superposer la densité de probabilité normale standard.
11
Figure 4 – Illustration du théorème central limite. Convergence de la convergence de Zn vers une
variable de loi normale standard, lorsque X est de loi uniforme de paramètres a = −4.
2.5.3
Squelette
Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant.
a = -4;
b =2;
[M , V ]= distfun_unifstat ( TODO );
N =10000;
scf ();
//
k =1;
subplot (2 ,2 ,1);
R = distfun_unifrnd ( TODO );
S =( sum (R , " c " ) - k * M )/( sqrt ( k * V ));
histo ( TODO );
x = linspace ( TODO );
y = distfun_normpdf ( TODO );
plot (x ,y , "b - " )
xtitle ( " k =1 " ," x " ," Density " )
legend ([ " Data " ," Normal (0 ,1) " ]);
//
k =2;
subplot (2 ,2 ,2);
TODO
//
k =4;
subplot (2 ,2 ,3);
TODO
//
k =8;
subplot (2 ,2 ,4);
TODO
12
3
Exercices Probabilités Optionnels
3.1
Loi binomiale (théorie)
Soit N un entier positif et pr une probabilité dans l’intervalle (0, 1). On réalise une expérience de
Bernoulli, dans laquelle on obtient un succès avec une probabilité pr et un échec avec une probabilité
1 − pr . On répète cette expérience N fois. Soit X le nombre de succès. Alors X suit une loi binomiale de
paramètres pr et N . Sa densité de probabilité est donnée par l’équation 1, page 6.
Exercice 6
Démontrer l’équation 1.
Rappel :
On rappelle que, pour une variable discrète, l’espérance est définie par
X
E(X) =
xi P (X = xi ).
i
De plus, la variance est définie par :
V (X) = E((X − µ)2 ),
où µ = E(X). La variance de X peut se calculer en fonction de µ et E(X 2 ). En effet,
V (X)
= E(X 2 − 2µX + µ2 )
= E(X 2 ) − 2µE(X) + µ2
= E(X 2 ) − 2µ2 + µ2
= E(X 2 ) − µ2 .
Exercice 7
Soit X une variable aléatoire distribuée selon la loi de Bernoulli de paramètre pr . En d’autres termes,
1 si l’essai i est un succès,
X=
0 sinon.
avec P (X = 1) = pr et P (X = 0) = 1 − pr .
Montrer que
E(X) = pr ,
V (X) = pr (1 − pr ).
(6)
Exercice 8
Soit X une variable aléatoire distribuée selon la loi binomiale de paramètres N et pr . Montrer que
E(X) = N pr ,
3.2
V (X) = N pr (1 − pr ).
(7)
Loi uniforme (théorie)
Soit a et b deux réels tels que a < b. La variable X suit une loi uniforme de paramètres a et b si sa
densité est donnée par l’équation 3, page 8. L’espérance de X et sa variance sont donnés par les équations
4 et 5, page 8.
Exercice 9
Démontrer les équations 4 et 5.
13
Rappel :
Pour une variable aléatoire X continue, l’espérance est définie par
Z
E(X) =
xf (x)dx,
x
où f est la densité de probabilité de X.
3.3
Loi normale (théorie)
Exercice 10
Soit X une variable aléatoire. On appelle fonction génératrice des moments la fonction M définie par
M (t) = E etX ,
pour tout t ∈ R.
1. Montrer que
M 0 (0) = E(X).
(8)
M 00 (0) = E(X 2 ).
(9)
M (n) (0) = E(X n ),
(10)
2. Montrer que
3. Montrer que
pour tout entier n.
Exercice 11
Soit X une variable aléatoire normale de paramètres µ et σ.
1. Montrer que la fonction génératrice des moments de X est
σ 2 t2
M (t) = exp µt +
.
2
(11)
2. En déduire que
V (X) = σ 2 .
E(X) = µ,
(12)
Indication : on utilisera le changement de variable
z=
x−µ
σ
(13)
et on démontrera l’égalité
tσz −
z2
t2 σ 2
(z − tσ)2
=
−
,
2
2
2
pour tout t ∈ R.
14
(14)
Figure 5 – Probabilité que la puissance W dépasse un seuil.
3.4
Produits défaillants sur une ligne de production (*)
Exercice 12
Supposons que des objets sont produits par une ligne de production, et classés comme défaillants ou
non-défaillants, indépendamment les uns des autres. La probabilité qu’un objet soit non-défaillant est
pr=0.8. A un moment dans la ligne de production, on sélectionne un échantillon en prenant trois objets
au hasard. Calculer la probabilité que l’échantillon contienne 0, 1, 2 ou 3 objets non-défaillants.
3.4.1
Squelette
Pour vous aider dans votre progression, vous pouvez vous inspirer du modèle de script suivant.
P0 = distfun_binopdf ( TODO )
mprintf ( " P ( X =0)= %f \ n " , P0 )
P1 = distfun_binopdf ( TODO )
mprintf ( " P ( X =1)= %f \ n " , P1 )
P2 = distfun_binopdf ( TODO )
mprintf ( " P ( X =2)= %f \ n " , P2 )
P3 = distfun_binopdf ( TODO )
mprintf ( " P ( X =3)= %f \ n " , P3 )
mprintf ( " Somme = %f \ n " , P0 + P1 + P2 + P3 )
3.5
Puissance dissipée par une résistance (*)
Exercice 13
Considérons la puissance W dissipée par une résistance (en watts). Elle satisfait l’équation
W =
U2
R
où R est la résistance du conducteur (en ohms) et U est la tension (en volts). Supposons que R = 1/3
et que U est une variable aléatoire de loi normale de moyenne µ = 6 et d’écart-type σ = 1.
– Calculer E(W ).
– Calculer P (W > 120).
– Dessiner P (W > s), pour s > 0 et reproduire la figure 5.
15
Figure 6 – Convergence de la loi de Poisson vers la loi normale lorsque la moyenne λ de la loi de Poisson
augmente.
3.6
Lien entre la loi de Poisson et la loi normale (*)
Supposons que des événements aléatoires se produisent indépendamment les uns des autres. Soit
λ > 0 le nombre moyen d’apparition de ces événements par unité de temps (ou d’espace). La variable X
suit une loi de Poisson si sa densité de probabilité est
f (x, λ) =
λx exp(−λ)
,
x!
pour x = 0, 1, 2, ....
Exercice 14
Quand λ augmente, la distribution
de Poisson de paramètre λ approche la distribution normale de
√
moyenne λ et d’écart-type λ.
Vérifier avec Scilab : avec les valeurs suivantes lambda=[4 16 32 10000]. Indication : utiliser
– distfun poisspdf
– distfun normpdf
et reproduire la figure 6.
3.7
Changement de loi : uniforme vers exponentielle (*)
Exercice 15
Soit U une variable uniforme dans [0, 1]. Considérons la variable
X = −µ ln(1 − U )
–
–
–
–
Quelle est la fonction de répartition de X ?
Quelle est la densité de probabilité de X ?
Quelle est la loi de X ?
Générer un échantillon de taille N=10000 de réalisations d’une variable aléatoire uniforme de paramètres a=0 et b=1.
16
Figure 7 – Transformation des réalisation d’une variable uniforme dans [0, 1] vers une variable exponentielle de moyenne µ = 5.
– Appliquer la transformation R = −µ exp(U ), avec mu=5. (U et 1 − U sont de même loi).
– Créer l’histogramme empirique des valeurs de R.
– Superposer la densité de la variable exponentielle, de moyenne mu=5 et reproduire la figure 7.
4
4.1
4.1.1
Exercices Statistiques
Estimation de la moyenne
Rappel de cours
Avant de présenter quelques éléments théoriques associés à l’estimation de la moyenne, nous présentons un cours rappel sur les propriétés d’une variable aléatoire de loi normale.
Rappel : Supposons que X est une variable aléatoire de loi normale, de moyenne E(X) et de variance
V (X). Soit α un réel. Alors la variable aléatoire X + α est telle que
E(X + α) = E(X) + α,
V (X + α) = V (X).
D’autre part, la variable aléatoire αX est telle que
E(αX) = αE(X),
V (αX) = α2 V (X).
Soit X une variable aléatoire. Soit n un entier positif et xi des réalisations indépendantes de la
variable X, pour i = 1, 2, ..., n. On considère la moyenne empirique
xn =
x1 + x2 + ... + xn
.
n
(15)
On s’intéresse à l’estimation de l’espérance E(X) par son estimateur xn . Soit X1 , . . . , Xn des variables
aléatoires indépendantes et identiquement distribuées. Soit
Xn =
X1 + X2 + ... + Xn
,
n
la variable aléatoire associée à la moyenne empirique.
17
(16)
Dans l’exercice 27, on montre que :
E(X n ) = E(X)
(17)
V (X)
.
n
(18)
et
V (X n ) =
Supposons désormais que n est grand. D’après le théorème central limite, on a
X1 + . . . + Xn − nE(X)
p
∼ N (0, 1).
nV (X)
Cela implique
X1 + . . . + Xn − nE(X) ∼ N (0, nV (X)),
et, par conséquent,
X1 + . . . + Xn ∼ N (nE(X), nV (X)).
C’est pourquoi
X n ∼ N (E(X), V (X)/n).
En d’autres termes, la distribution de la moyenne empirique est normale, de moyenne E(X) et de variance
V (X)/n.
4.1.2
Expérience A1
Exercice 16
Supposons que X est de loi exponentielle, de paramètre µ = 12 (moyenne). L’objectif de cet exercice
est d’observer que la moyenne empirique X n est une variable aléatoire. Les propriétés de ses réalisations
peuvent être prédites par les résultats présentés précédemment.
1. Calculer l’espérance M et la variance V de X en utilisant les équations :
E(X) = µ,
V (X) = µ2 .
2. Utiliser la fonction distfun expstat pour calculer E(X) et V (X) et vérifier que le résultat est
identique au résultat de la question précédente.
3. Prendre n=1000 et générer le vecteur X, contenant n réalisations de la variable X. Pour cela, utiliser
la fonction distfun exprnd.
4. Calculer la moyenne empirique X n en utilisant l’instruction Mn=mean(X). Afficher E(X), V (X),
E(X n ), V (X n ), ainsi que la moyenne empirique Mn.
5. Exécuter le script plusieurs fois, et observer la variabilité de la moyenne empirique. Répéter avec
des valeurs de n plus grandes et vérifier que la variabilité est réduite. Répéter avec des valeurs de
n plus petites et vérifier que la variabilité est augmentée.
4.1.3
Squelette
mu =12;
mprintf ( " mu = %f \ n " , mu );
// 1. Calculer la moyenne , la variance exactes de X
M = TODO ; // Moyenne
V = TODO ; // Variance
// 2. Utiliser distfun_expstat
[M , V ] = distfun_expstat ( mu );
// 3. Generer n realisations
n =1000;
18
X = distfun_exprnd ( TODO );
// 4. Estimer la moyenne empirique
Mn = mean ( TODO );
mprintf ( " E ( X )= %f , V ( X )= %f \ n " , TODO );
mprintf ( " E ( Mn )= %f , V ( Mn )= %f \ n " , TODO );
mprintf ( " Mean ( X )= %f \ n " , TODO );
4.1.4
Sortie
Le script produit la sortie suivante.
mu =12.000000
E ( X )=12.000000 , V ( X )=144.000000
E ( Mn )=12.000000 , V ( Mn )=0.144000
Mean ( X )=12.618887
4.1.5
Expérience A2
Exercice 17
Supposons que X est de loi exponentielle, de paramètre µ = 12 (moyenne). L’objectif de cet exercice
est d’observer que, lorsque le nombre de réalisations n augmente, la variance de la moyenne empirique
diminue. Pour cela, dans l’exercice qui suit, on génère Nsample réalisations de X n .
1. Utiliser la fonction distfun expstat pour calculer E(X) = µ et V (X) = µ2 .
2. Prendre n=2 et générer le vecteur Mn, contenant Nsample=10000 réalisations de la variable X n . Pour
cela, utiliser la fonction distfun exprnd pour calculer la matrice X contenant Nsample=10000 lignes
et n colonnes. Ensuite, calculer la moyenne empirique X n en utilisant l’instruction Mn=mean(X,"c").
3. Estimer la moyenne empirique de Mn, sa variance, et comparer avec M et V/n. Indication : voir la
fonction variance.
4. Répéter avec n=1,2,4,8.
4.1.6
Squelette
mu =12;
mprintf ( " mu = %f \ n " , mu );
// 1. Calculer la moyenne , la variance
M = TODO ; // Moyenne
V = TODO ; // Variance
// 2. Utiliser distfun_expstat
[M , V ] = distfun_expstat ( TODO );
// 3. Generer 10000 realisations de la
// moyenne empirique
Nsample =10000;
n =2;
X = distfun_exprnd ( TODO );
Mn = mean ( TODO );
// 4. Estimer les valeurs empiriques
// Comparer avec les valeurs exactes
mprintf ( " n = %d \ n " ,n );
mprintf ( " E ( Mn )= %f , V ( Mn )= %f \ n " , TODO , TODO );
mprintf ( " Mean ( Mn )= %f , Variance ( Mn )= %f \ n " ,..
mean ( TODO ) , variance ( TODO ));
// 5. Repeter avec n =1 ,2 ,4 ,8
mprintf ( " Variable Exponentielle ( mu =12)\ n " );
for n =[1 2 4 8]
mprintf ( " n = %d \ n " ,n );
mprintf ( " E ( Mn )= %f , V ( Mn )= %f \ n " , TODO , TODO );
X = distfun_exprnd ( TODO );
19
Mn = mean ( TODO );
mprintf ( " Mean ( Mn )= %f , Variance ( Mn )= %f \ n " ,..
mean ( TODO ) , variance ( TODO ));
end
4.1.7
Sortie
Le script produit la sortie suivante.
mu =12.000000
n =2
E ( Mn )=12.000000 , V ( Mn )=72.000000
Mean ( Mn )=12.073910 , Variance ( Mn )=71.219129
Variable Exponentielle ( mu =12)
n =1
E ( Mn )=12.000000 , V ( Mn )=144.000000
Mean ( Mn )=11.999513 , Variance ( Mn )=143.258739
n =2
E ( Mn )=12.000000 , V ( Mn )=72.000000
Mean ( Mn )=12.020114 , Variance ( Mn )=72.727774
n =4
E ( Mn )=12.000000 , V ( Mn )=36.000000
Mean ( Mn )=12.020695 , Variance ( Mn )=36.679829
n =8
E ( Mn )=12.000000 , V ( Mn )=18.000000
Mean ( Mn )=12.061005 , Variance ( Mn )=18.432936
4.1.8
Expérience B
Exercice 18
Supposons que X est de loi exponentielle, de paramètre µ = 12 (moyenne). On veut maintenant voir
la distribution des réalisations de X n , et observer que, quand n augmente, alors la distribution de X n
s’approche de la distribution normale, de moyenne E(X) et de variance V (X)/n.
1. Calculer l’espérance M et la variance V de X avec la fonction distfun expstat.
2. Prendre n=2 et générer le vecteur Mn, contenant Nsample=1000 réalisations de la variable X n avec
la fonction distfun exprnd.
3. Tracer l’histogramme empirique des réalisations de xn en utilisant la fonction histo.
4. Tracer la densité de probabilité de la loi normale de paramètres M et V/n en utilisant la fonction
distfun normpdf.
5. Répéter l’expérience pour n=1,2,4,8 et placer les 4 sous-graphiques précédents dans un seul graphique : reproduire la figure 8. Indication : voir la fonction subplot.
4.1.9
Squelette
mu =12;
Nsample =1000;
[M , V ]= distfun_expstat ( TODO );
x = linspace (0 ,100 ,100);
scf ();
//
n =1;
X = distfun_exprnd ( TODO );
Mn = mean ( TODO );
subplot (2 ,2 ,1);
histo ( TODO )
y = distfun_normpdf ( TODO );
plot (x ,y , "r - " );
20
Figure 8 – Distribution empirique et théorique de la moyenne empirique de n = 1, 2, 4, 8 réalisations
de variables exponentielles de moyenne µ = 12. La distribution théorique est celle de la loi normale de
moyenne µ et de variance µ2 /n. La distribution empirique utilise 1000 réalisations de X n .
21
xtitle ( " Sample Mean - n =1 " ," M " ," Frequency " );
legend ([ " Data " ," Normal PDF " ]);
//
n =2;
subplot (2 ,2 ,2);
TODO
//
n =4;
subplot (2 ,2 ,3);
TODO
//
n =8;
subplot (2 ,2 ,4);
TODO
4.2
4.2.1
Intervalle de confiance d’une moyenne
Rappel de cours
Soit xi des réalisations indépendantes de la variable aléatoire X, pour i = 1, 2, ..., n. Soit α ∈ [1/2, 1].
Si X est une variable normale de moyenne µ et de variance σ 2 , alors l’intervalle
σ
δn = z1−α/2 √
n
In = [xn − δn , xn + δn ] ,
(19)
est un intervalle de confiance à 1 − α pour la moyenne. En d’autres termes, on a
P (In 3 µ) = 1 − α.
(20)
Si X est une variable normale de moyenne µ et de variance inconnue, alors on considère l’intervalle
In = [xn − δn , xn + δn ] ,
δn = tn−1,1−α/2 √
Sn
,
n−1
(21)
où tn−1,1−α/2 est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de libertés, et Sn est
l’écart-type empirique biaisé. Alors l’intervalle In est un intervalle de confiance à 1 − α pour l’espérance.
En d’autres termes, on a
P (In 3 E(X)) = 1 − α.
On peut également utiliser la variance corrigée (non biaisée) Sn∗2 , ce qui mène à
S∗
δn = tn−1,1−α/2 √n .
n
Lorsque n est grand, la loi de Student est approchée par la loi normale standard, de telle sorte que :
δn = z1−α/2 √
Sn
,
n−1
où z1−α/2 est le quantile d’ordre 1 − α/2 de la fonction de répartition de la loi normale standard.
La notation In 3 E(X) permet de mettre en valeur le fait que les bornes de l’intervalle In sont des
variables aléatoires, tandis que E(X) est l’espérance de la variable.
Lorsque n est grand, alors le théorème central limite implique que la distribution de la moyenne
empirique est normale, de moyenne E(X) et de variance V (X)/n. De plus, en général, la distribution
de la variable X est inconnue (elle ne suit pas nécessairement la loi normale) et la variance V (X) est
inconnue, c’est pourquoi on l’estime par la variance empirique. Dans ce cas, on peut utiliser l’intervalle
de confiance asymptotique approché
P (In 3 E(X)) ≈ 1 − α,
δn = z1−α/2 √
Sn
.
n−1
L’approximation est, dans cette situation, le fruit de trois approximations :
22
1. la distribution de Xn n’est normale que quand n est grand, de telle sorte que la probabilité n’est
qu’approximativement égale à 1 − α,
2. la variance V (X) est estimée par la variance empirique Sn2 , qui ne sont proches que lorsque n est
grand,
3. le quantile de la loi de Student tn−1,1−α/2 est approché par le quantile de la loi normale z1−α/2 ,
qui ne sont proches que si n est grand.
En pratique, si le nombre de réalisation n est modéré (n < 100) ou faible (n < 10), l’intervalle de
confiance précédent peut être incorrect.
Plus de détails sur ce thème sont donnés, par exemple, dans [2], section 7.3 ”Interval Estimates”, ou
encore dans [3], section 13.5.2 ”Espérance d’une variable normale”.
4.2.2
Expérience A
Considérons la variable X de loi log-normale de paramètres µ = 2 et σ = 1. Cela signifie que
Y = log(X) est de loi normale de paramètres µ et σ. On cherche à estimer un intervalle de confiance à
95% pour la moyenne de X. Cela correspond à 1 − α = 0.95, c’est à dire α = 0.05.
Exercice 19
1. Calculer l’espérance de la variable X avec la fonction distfun lognstat.
2. Générer n=100 réalisations de la variable X avec la fonction distfun lognrnd.
3. Calculer la moyenne empirique et la variance (biaisée) de l’échantillon. Indication : utiliser l’instruction variance(y,"r",1) pour estimer la variance biaisée de y.
4. Calculer le quantile à 0.025 de la loi de Student à n-1 degrés de liberté. Indication : utiliser
distfun tinv.
5. En déduire des réalisations des bornes de l’intervalle de confiance.
6. Répéter l’expérience en calculant le quantile à 0.025 de la loi Normale standard avec la fonction
distfun norminv.
7. Estimer les bornes de l’intervalle de confiance.
8. Voir la différence entre l’intervalle utilisant la loi de Student et l’intervalle utilisant la loi normale.
4.2.3
Squelette
n = 100; // taille echantillon
mu = 2;
sigma = 1;
mux = distfun_lognstat ( TODO ); // esperance de X
X = distfun_lognrnd ( TODO ); // Echantillon X
Mn = mean ( X ); // moyenne empirique
Sn2 = variance (X , " r " ,1); // variance empirique ( biaisee )
level =0.05; // =1 -0.95
al = level /2;
// Quand n n ’ est pas tres grand :
q = distfun_tinv ( TODO );
// Quand n est grand :
// q = distfun_norminv ( TODO );
delta = TODO ;
low = Mn - delta ;
up = Mn + delta ;
mprintf ( " Moyenne exacte = %f \ n " , mux );
mprintf ( " Moyenne empirique = %f \ n " , Mn );
mprintf ( " Intervalle a 0.95 %% : [ %f , %f ]\ n " ,low , up );
4.2.4
Sortie
23
Figure 9 – Histogrammes empiriques de 10000 réalisations des bornes inférieures et supérieures de
l’intervalle de confiance à 95% de la moyenne empirique de 100 réalisations d’une variable log-Normale
de paramètres µ = 1 et σ = 2.
Moyenne exacte = 12.182494
Moyenne empirique = 9.194240
Intervalle a 0.95 % : [7.309435 ,11.079045]
4.2.5
Expérience B
Considérons la variable X de loi log-normale de paramètres µ = 2 et σ = 1. On cherche à estimer un
intervalle de confiance à 95% pour la moyenne de X.
Exercice 20
L’objectif de cette expérience est de vérifier que 95 % environ des intervalles de confiances In
contiennent l’espérance E(X).
1. Générer une matrice de n-par-Nsample réalisations de la variable X, où n=100 et Nsample=10000.
2. Calculer la moyenne empirique sur les lignes et la variance (biaisée) sur les lignes de l’échantillon.
3. En déduire des réalisations des bornes de l’intervalle de confiance à 95
4. Créer un graphique présentant un histogramme des réalisations de la borne inférieure, un histogramme des réalisations de la borne supérieure et une ligne correspondant à l’espérance de X :
reproduire la figure 9.
5. Calculer la proportion de réalisations de l’intervalle In qui contiennent l’espérance E(X). Vérifier
que cette proportion est proche de 95%.
4.2.6
Squelette
mu =2;
sigma =1;
n =100;
Nsample =10000;
X = distfun_lognrnd ( TODO );
Mn = mean (X , " r " );
c
Sn2 = variance (X , " r " , %nan ); // variance empirique (biais ~
A e)
delta = TODO
low = Mn - delta ;
up = Mn + delta ;
x = linspace (5 ,25 ,50);
scf ();
histo ( low ,x , %t ,1);
24
histo ( up ,x , %t ,2);
plot ([ mux , mux ] ,[0 ,0.3] , "r - " );
legend ([ " Lower Bound " ," Upper Bound " ," E ( X ) " ]);
xtitle ( " Invervalle de confiance a 95 % - X ~ Log - Normale " ,..
" Mean " ," Frequency " )
// Calcul de P ( I contains mux )
i = find ( mux > low & mux < up );
nInBounds = size (i , " * " );
pInBounds = nInBounds / Nsample ;
mprintf ( " P ( I contains E ( X ))= %f \ n " , pInBounds );
4.2.7
Sortie
Le script produit la sortie suivante.
P ( I contains E ( X ))=0.920900
4.3
4.3.1
Estimation de la variance
Rappel de cours
Supposons que X1 , . . . , Xn sont des variables indépendantes et identiquement distribuées, de moyenne
µ et de variance σ 2 .
On considère l’estimateur biaisé de la variance :
n
Sn2 =
1X
(xi − xn )2
n i=1
(22)
et l’estimateur non biaisé :
n
Sn?2 =
1 X
(xi − xn )2 .
n − 1 i=1
(23)
On sait que :
E(Sn2 ) =
n−1
V (X),
n
(24)
et
E(Sn?2 ) = V (X).
4.3.2
(25)
Expérience A
Exercice 21
On considère X une variable de loi exponentielle de moyenne µ = 5. Sa variance est µ2 = 25. On
veut comparer l’espérance de la variable aléatoire Sn?2 (estimateur non biaisé) et sa valeur attendue µ2 .
1. Générer une matrice de Nsample=10000 par n=2 réalisations de la variable aléatoire X. Indication :
utiliser distfun exprnd.
2. Calculer la variable aléatoire Sn?2 (estimateur non biaisé) correspondant à cette matrice (elle a
Nsample=10000 lignes et une colonne).
3. Calculer la moyenne empirique de Sn?2 et comparer avec la valeur attendue µ2 .
4. Répéter l’expérience 5 fois.
5. Répéter l’expérience avec n=4,8,16.
25
4.3.3
Sortie
Le script produit la sortie suivante.
Variable Exponentielle ( mu =5.000000)
n =2
E ( Sn )=25.000000
#1 , Mean ( Sn )=24.662395
#2 , Mean ( Sn )=23.851125
#3 , Mean ( Sn )=25.149188
#4 , Mean ( Sn )=24.674425
#5 , Mean ( Sn )=25.280204
n =4
E ( Sn )=25.000000
#1 , Mean ( Sn )=24.370294
#2 , Mean ( Sn )=25.297186
#3 , Mean ( Sn )=24.649946
#4 , Mean ( Sn )=24.681216
#5 , Mean ( Sn )=25.144950
n =8
E ( Sn )=25.000000
#1 , Mean ( Sn )=25.334876
#2 , Mean ( Sn )=25.020715
#3 , Mean ( Sn )=25.123817
#4 , Mean ( Sn )=24.668120
#5 , Mean ( Sn )=24.943173
n =16
E ( Sn )=25.000000
#1 , Mean ( Sn )=24.939115
#2 , Mean ( Sn )=24.817960
#3 , Mean ( Sn )=24.991745
#4 , Mean ( Sn )=25.198029
#5 , Mean ( Sn )=25.151239
4.3.4
Squelette
mu =5;
Nsample =10;
n =2;
[M , V ] = distfun_expstat ( TODO );
Nsample =10000;
mprintf ( " Variable Exponentielle ( mu = %f )\ n " , mu );
for n =[2 4 8 16]
mprintf ( " n = %d \ n " ,n );
mprintf ( " E ( Sn )= %f \ n " ,V );
for i =1:5
X = distfun_exprnd ( TODO );
Sn = variance ( TODO );
mprintf ( " # %d , Mean ( Sn )= %f \ n " ,..
i , mean ( Sn ));
end
end
4.3.5
Expérience B
Exercice 22
On considère X une variable de loi exponentielle de moyenne µ = 5. Sa variance est µ2 = 25. On veut
comparer l’espérance de la variable aléatoire Sn?2 (estimateur non biaisé) et l’espérance de la variable
aléatoire Sn2 (estimateur biaisé). On appelle cette correction la ”correction de Bessel”.
26
1. Pour n=2, générer Nsample=10000 réalisations de la variable aléatoire Sn?2 (estimateur non biaisé).
Indication : utiliser la fonction variance(X,"c",0), ou bien, plus simplement, variance(X,"c"),
pour obtenir l’estimateur non biaisé.
2. Calculer la variance empirique de Sn?2 et comparer avec la valeur attendue µ2 .
3. Pour n=2, générer Nsample=10000 réalisations de la variable aléatoire Sn2 (estimateur biaisé). Indication : utiliser la fonction variance(X,"c",1) pour obtenir l’estimateur biaisé.
4. Calculer la variance empirique de Sn2 et comparer avec la valeur attendue µ2 .
Vérifier que la variance biaisée est proche de la valeur attendue pour cet estimateur, mais qu’elle est
assez loin de la variance de la variable. Toutefois, le cas n = 2 est un cas extrême : lorsque n augmente,
la différence entre la variance empirique biaisée et non biaisée tend vers zéro.
4.4
4.4.1
Estimation d’une probabilité de dépassement
Rappel de cours
Soit X une variable aléatoire et xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n.
Soit s ∈ R un seuil. On souhaite estimer la probabilité de dépassement :
pf = P (X > s).
Soit Yi la variable dont les réalisations sont
1 si xi > s
0 sinon.
yi =
Soit b la variable définie par :
bn = y1 + y2 + ... + yn .
La probabilité de dépassement pf est estimée par
p̃f =
bn
.
n
La variable
Bn = Y1 + Y2 + . . . + Yn
est une variable binomiale de paramètres pf et n. Par conséquent, son espérance est npf et sa variance
est npf (1 − pf ). L’espérance de la variable
Bn
P̃f =
n
est donc pf et sa variance est pf (1 − pf )/n.
Soit p̃f une estimation Monte-Carlo de la probabilité pf . Soit f le quantile d’ordre α/2 de la loi
normale standard :
f = Φ−1 (α/2).
Soit l’intervalle
In = [p̃f − ∆n , p̃f + ∆n ] .
avec
r
p̃f (1 − p̃f )
.
n
Alors In est un intervalle de confiance approché à 1 − α pour la proportion pf , c’est à dire que
∆n = f
P (In 3 pf ) ≈ 1 − α.
L’approximation vient du fait qu’on remplace la variance exacte pf (1 − pf )/n qui dépend de la valeur
inconnue pf par son estimation p̃f (1 − p̃f )/n.
27
4.4.2
Expérience A
Exercice 23
On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe le seuil
s = 104 et on souhaite estimer
pf = P (X > s).
1. Calculer la probabilité de dépassement exacte pfExacte.
Indication : utiliser la fonction distfun logncdf, ainsi que l’option lowertail=%f (pour obtenir
la queue haute de distribution P (X > s), et non pas la queue basse P (X < s)).
2. Générer un vecteur de Nsample=10000 réalisations de la variable aléatoire X. Indication : utiliser
distfun lognrnd.
3. Calculer le nombre de réalisations au dessus du seuil. Indication : utiliser la fonction find.
4. Calculer la proportion de réalisations qui sont au dessus du seuil.
Note : l’utilisation de l’option lowertail est importante pour la précision du résultat :
– lorsque la probabilité p est entre 0 et 0.5, on devrait utiliser la queue basse (c’est à dire l’option
lowertail=%t),
– lorsque la probabilité p est entre 0.5 et 1, alors q = 1 − p est entre 0 et 0.5 et on devrait utiliser la
queue haute (c’est à dire lowertail=%f).
4.4.3
Sortie
Variable Log - normale
mu =2.000000
sigma :3.000000 e +000
seuil :1.000000 e +004
Pf ( exact ):8.120665 e -003
Nombre de simulations :100000
Nombre de dépassements :819
Pf ( estimation ):8.190000 e -003
4.4.4
Squelette
mu =2;
sigma =3;
seuil =1. e4 ;
// Calcul exact
pfExacte = distfun_logncdf ( TODO );
mprintf ( " Pf ( exact ): %e \ n " , pfExacte );
// Estimation Monte - Carlo
Nsample =100000;
X = distfun_lognrnd ( TODO );
i = find (X > seuil );
nfail = size (i , " * " );
mprintf ( " Nombre de depassements : %d \ n " , nfail );
pf = TODO ;
mprintf ( " Pf ( estimation ): %e \ n " , pf );
4.4.5
Expérience B
Exercice 24
Pour les mêmes données que l’expérience A, on souhaite estimer un intervalle de confiance à 1 − α =
95% pour la probabilité pf .
1. Evaluer la probabilité α/2 et inverser la queue haute de la fonction de répartition de la loi normale
standard.
2. Estimer les bornes de l’intervalle de confiance.
28
4.5
4.5.1
Estimation d’un quantile
Rappel de cours
Soit X une variable aléatoire de densité de probabilité f et de fonction de répartition F .
Soit α ∈ [0, 1] une probabilité. Soit yα le quantile exact d’ordre α, défini par l’équation
yα = F −1 (α).
Soit xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. On suppose que les
réalisations sont triées par ordre croissant, i.e.
x1 < x2 < ... < xn .
Le quantile empirique d’ordre 1 − α est
yα,n = xi ,
où i = dαne. Asymptotiquement, la distribution du quantile empirique yα,n est celle d’une loi normale
de moyenne µ = yα et de variance
α(1 − α)
.
σ2 =
nf (yα )2
4.5.2
Expérience A
Exercice 25
On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe le seuil
α = 0.1 et on souhaite calculer x tel que
P (X < x) = α.
1. Calculer le quantile exact xExact. Indication : utiliser distfun logninv.
2. Générer un vecteur de Nsample=10000 réalisations de la variable aléatoire X. Indication : utiliser
distfun lognrnd.
3. Trier les réalisations par ordre croissant. Indication : utiliser gsort.
4. Calculer le rang, puis le quantile.
5. Comparer la valeur exacte et la valeur estimée.
4.5.3
Squelette
mu =2;
sigma =3;
al =0.1;
// Calcul exact
xExact = distfun_logninv ( TODO );
mprintf ( " x ( exact ): %e \ n " , xExact );
// Estimation Monte - Carlo
Nsample =100000;
X = distfun_lognrnd ( TODO );
X = gsort (X , " g " ," i " );
i = floor ( Nsample * al );
x = X ( i );
mprintf ( " x ( estimation ): %e \ n " ,x );
4.5.4
Sortie
29
Variable Log - normale
mu =2.000000
sigma :3.000000 e +000
alpha :1.000000 e -001
x ( exact ):1.580799 e -001
Nombre de simulations :100000
x ( estimation ):1.576264 e -001
4.5.5
Expérience B
Exercice 26
On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe le seuil
α = 10−3 et on souhaite calculer x tel que
P (X > x) = α.
Notons que le quantile associé est différent de celui calculé dans l’expérience A précédente.
1. Calculer le quantile exact xExact. Indication : utiliser la fonction distfun logninv et l’option
lowertail=%f.
2. Générer un vecteur de Nsample=10000 réalisations de la variable aléatoire X. Indication : utiliser
distfun lognrnd.
3. Trier les réalisations par ordre décroissant. Indication : utiliser gsort.
4. Calculer le rang, puis le quantile.
5. Comparer la valeur exacte et la valeur estimée.
5
Exercices Statistiques Optionnels
5.1
5.1.1
Estimation de la moyenne
Un peu de théorie
Exercice 27
1. Montrer l’équation 17.
2. Montrer l’équation 18.
5.1.2
Expérience C (*)
Exercice 28
On considère X une variable de loi normale standard.
1. Répéter l’expérience B.
2. Observer que l’adéquation entre l’histogramme empirique des réalisations de xn et la densité est
vraie pour toute valeur de n : reproduire la figure 10.
3. Commenter le graphique.
5.1.3
Expérience D (*)
Exercice 29
On considère X une variable de loi normale standard.
1. Pour n=2, tracer la densité de probabilité de la moyenne empirique xn , c’est à dire, tracer la densité
de probabilité d’une loi normale de moyenne 0 et de variance 1/2.
2. Ajouter, sur le même graphique, la densité pour n=1,2,4,10 : reproduire la figure 11.
3. Voir que la densité se resserre autour de 0 : pourquoi ?
30
Figure 10 – Histogramme empirique et distribution de la moyenne empirique de m réalisations de
variables standard normales.
Figure 11 – Distribution de la moyenne empirique de m réalisations de variables standard normales.
31
5.2
5.2.1
Estimation de la variance
Un peu de théorie
On considère les estimateurs biaisé de la variance donné par l’équation 22 et l’estimateur non biaisé
donné par l’équation 23, page 25.
Exercice 30
Supposons que X1 , . . . , Xn sont des variables indépendantes et identiquement distribuées, de moyenne
µ et de variance σ 2 .
1. Montrer que
n
Sn2
=
1X 2
2
X − X n.
n i=1 i
(26)
2. Montrer l’équation 24, page 25.
3. Montrer l’équation 25.
5.2.2
Expérience C (*)
Exercice 31
On considère X une variable de loi exponentielle de moyenne µ = 1. Avec un échantillon donné, on
souhaite vérifier que la différence entre la variance biaisée et la variance non biaisée se réduit lorsque n
augmente.
L’objectif est de reproduire la figure 12.
1. Générer Nsample=10000 réalisations de la variable aléatoire X.
2. Pour n=1,2,...,Nsample, calculer la variance empirique biaisée et non biaisée des réalisations de
1 à n.
3. Faire un graphique permettant de comparer les deux variances. Utiliser une échelle logarithmique
pour n. Calculer la variance exacte de la variable aléatoire, et la tracer sur le même graphique.
5.3
5.3.1
Estimation d’une probabilité de dépassement
Expérience C (*)
Exercice 32
On souhaite tester une technique de stabilisation de la variance fondée sur la transformation
√
g(p) = arcsin ( p)
Soit p̃f une estimation Monte-Carlo de la proportion pf . Considérons l’intervalle
h
i
2
2
In = sin (an − δn ) , sin (an + δn ) ,
avec
an
=
arcsin
p
p̃f ,
(27)
δn
=
F −1 (1 − α/2)
√
,
2 n
(28)
où F est la fonction de répartition de la loi normale standard. Alors In est un intervalle de confiance
asymptotique (i.e. quand n est grand) à 1 − α pour la proportion pf , c’est à dire que :
P (I 3 pf ) ≈ 1 − α.
32
Figure 12 – Comparaison entre la variance empirique biaisée et la variance empirique non biaisée
lorsque n, le nombre de réalisations, augmente. La ligne noire représente la variance exacte de la variable
aléatoire.
1. Evaluer la probabilité α/2 et inverser la queue haute de la fonction de répartition de la loi normale
standard pour calculer f .
2. Estimer les bornes de l’intervalle de confiance.
3. Faire varier la probabilité de défaillance entre 10−3 et 10−2 .
4. Comparer avec l’intervalle de confiance obtenu par le théorème central (c’est à dire celui de
l’expérience B).
5. Tracer les bornes de l’intervalle issu du théorème centrale limite en bleu et les bornes de l’intervalle
issu de Arcsin en rouge et reproduire la figure 13.
5.3.2
Expérience D (*)
Exercice 33
Le but de cette expérience est de vérifier la distribution de npf lorsque X est une variable exponentielle
de moyenne µ = 3. On considère le seuil s = 8 ainsi que n = 200 réalisations. On répète cette expérience
Nrepeat=500 fois.
1. Calculer la probabilité de dépassement exacte pfExacte du seuil s.
2. Générer une matrice avec n=200 lignes et Nrepeat=500 colonnes, contenant des réalisations indépendantes de la variable X.
3. Calculer la matrice y, qui vaut zéro si il n’y a pas de dépassement et un sinon.
4. En déduire le vecteur b, de Nrepeat lignes, contenant le nombre de dépassements pour chaque
expérience. Indication : utiliser la fonction sum.
5. En déduire le vecteur pf de Nrepeat lignes, contenant la proportion de dépassement pour chaque
expérience.
6. Calculer la densité de probabilité de la loi binomiale de paramètres pfExacte et n aux points
correspondants.
7. Tracer l’histogramme de la variable pf*n.
8. Ajouter sur le graphique la densité de la loi binomiale correspondante.
33
Figure 13 – Estimation de l’intervalle de confiance pour une probabilité de dépassement de seuil. On
considère une probabilité entre 10−3 et 10−2 pour n = 1000 réalisations.
9. Ajouter sur le graphique la probabilité de dépassement exacte pf .
A la fin de l’exercice, vous devriez pouvoir obtenir la figure 14.
5.4
Intervalle de confiance de la moyenne d’une variable normale (théorie)
Exercice 34
Soit xi des réalisations indépendantes de la variable aléatoire X, pour i = 1, 2, ..., n. Soit α ∈ [1/2, 1].
Si X est une variable normale de moyenne µ et de variance σ 2 , alors l’intervalle donné par l’équation
19, page 22, est un intervalle de confiance à 1 − α pour la moyenne. Démontrer l’équation 20, page 22.
5.5
5.5.1
Distribution de la moyenne d’une variable normale (*)
Expérience A (variance connue)
Exercice 35
Soit X une variable aléatoire de loi normale de paramètres µ et σ. Soit xi des réalisations indépendantes de la variable X, pour i = 1, 2, ..., n. Soit In l’intervalle
In = [xn − δn , xn + δn ],
σ
δn = z1−α/2 √ ,
n
où z1−α/2 est le quantile d’ordre 1−α/2 de la loi normale standard. Alors In est un intervalle de confiance
d’ordre 1 − α pour l’espérance :
P (In 3 E(X)) = 1 − α.
On souhaite vérifier cette propriété pour une variable normale de moyenne µ = 2 et σ = 3.
1. Générer Nsample=1000 réalisations de la variable X.
2. Calculer la moyenne empirique.
3. Calculer le quantile d’ordre 1 − α/2 de la loi normale standard.
34
Figure 14 – Distribution des probabilités de dépassement empiriques du seuil s = 8, pour n = 200
réalisations d’une variable exponentielle de moyenne µ = 3, avec une expérience répétée 500 fois.
4. Estimer les bornes de l’intervalle de confiance.
5.5.3 Expérience B (variance inconnue)
Exercice 36
Soit X une variable aléatoire de loi normale de paramètres µ et de variance inconnue. Considérons
l’intervalle
Sn
,
In = [xn − δn , xn + δn ], δn = t1−α/2,n−1 √
n−1
où t1−α/2,n−1 est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de liberté et Sn est
l’écart-type empirique (biaisé). Alors In est un intervalle de confiance d’ordre 1 − α pour l’espérance
E(X).
1. Pour le même échantillon que celui calculé dans l’expérience A, calculer la variance empirique
(biaisée).
2. Calculer le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de liberté.
3. Estimer les bornes de l’intervalle de confiance.
4. Comparer avec l’intervalle calculé dans l’expérience A.
5.5.5
Expérience C
Exercice 37
On considère X une variable de loi normale de paramètres µ et σ. On souhaite vérifier que la variable
Q=
nSn2
σ2
suit une loi du chi-deux de paramètre n − 1. Cette loi est notée χ2n−1 .
1. Générer une matrice de Nsample=10000 par n=5 réalisations de la variable aléatoire X.
2. Calculer Nsample=10000 réalisations de la variance empirique biaisée.
35
Figure 15 – Estimation de la moyenne empirique. Distribution de la variable Q = (nSn2 )/σ 2 lorsque X
suit une loi normale, dans le cas n = 5. Comparaison avec la loi du chi-deux à n − 1 degrés de liberté.
3. En déduire Nsample=10000 réalisations de la variable Q.
4. Tracer un histogramme avec 50 classes dans l’intervalle [0, 10] de la variable aléatoire Q.
5. Calculer la densité de la loi du chi-deux à n − 1 = 4 degrés de liberté, dans l’intervalle [0, 10].
Indication : utiliser la fonction distfun chi2pdf.
6. Reproduire la figure 15.
5.5.6
Expérience D
Exercice 38
On considère X une variable de loi normale de paramètres µ et σ. On souhaite vérifier que la variable
T =p
xn − µ
Sn2 /(n − 1)
suit une loi de Student de paramètre n − 1. Cette loi est notée Tn−1 .
1. Générer une matrice de Nsample=10000 par n=5 réalisations de la variable aléatoire X.
2. Calculer Nsample=10000 réalisations de T .
3. Tracer un histogramme avec 50 classes dans l’intervalle [−5, 5] de la variable aléatoire T .
4. Calculer la densité de la loi du T de Student à n − 1 = 4 degrés de liberté, dans l’intervalle [−5, 5].
Indication : utiliser la fonction distfun tpdf.
5. Reproduire la figure 16.
5.6
5.6.1
Estimation d’un quantile
Expérience C (*)
Exercice 39
On considère X une variable de loi log-normale de paramètres µ = 2 et σ = 3. On se fixe un seuil
α = 10−3 et on souhaite calculer x tel que
P (X > x) = α.
36
p
Figure 16 – Estimation de la moyenne empirique. Distribution de la variable T = (xn −µ)/ Sn2 /(n − 1)
lorsque X suit une loi normale, dans le cas n = 5. Comparaison avec la loi du T de Student à n − 1
degrés de liberté.
1. Calculer le quantile exact, par inversion de la fonction de répartition.
2. Pour Nsample=210 , 211 , ..., 220 , estimer le quantile correspondant par Monte-Carlo.
3. Tracer un graphique qui montre la convergence de l’estimateur Monte-Carlo vers la valeur exacte :
reproduire la figure 17.
Constater qu’il faut un grand nombre de simulations pour que l’estimateur converge, lorsque α est
soit petit, en tête ou en queue de distribution.
5.6.2
Expérience D (*)
Exercice 40
On considère X une variable uniforme dans [0, 1] et on estime son quantile à 95%. Le quantile exact
est x = 0.95. On utilise une simulation de Monte-Carlo comportant Nsample=200 réalisations. On répète
l’expérience nRepeat=10000 fois. On souhaite voir la distribution des quantiles à 95%.
1. Générer une matrice de nombres aléatoires uniformes dans [0, 1] avec nRepeat=10000 lignes et
Nsample=200 colonnes.
2. Calculer l’indice correspondant au quantile à 95%.
3. Trier la matrice X par colonnes croissantes.
4. Extraire la colonne correspondant au quantile empirique.
5. Tracer son histogramme et superposer le quantile exact : reproduire la figure 18.
5.6.3
Expérience E
Exercice 41
On cherche à voir la distribution du quantile empirique yα,n lorsque X est une variable normale de
moyenne 4 et d’écart-type 7. Pour cela on considère le quantile empirique associé à un échantillon de
taille Nsample. On répète le calcul nRepeat fois, et on observe la distribution du quantile empirique.
1. Générer une matrice X de nombres aléatoires normales de moyenne 4 et d’écart-type 7 avec
nRepeat=10000 lignes et Nsample=200 colonnes.
2. Trier la matrice X par colonnes croissantes.
37
Figure 17 – Convergence du quantile empirique à 10−3 lorsque le nombre de simulations n augmente.
Figure 18 – Distribution du quantile empirique à 95% d’une variable uniforme, par une méthode de
Monte-Carlo simple sur 200 réalisations, répétée 10000 fois.
38
Figure 19 – Distribution du quantile empirique à 95% d’une variable normale, par une méthode de
Monte-Carlo simple sur 200 réalisations, répétée 10000 fois. On compare avec la distribution asymptotique.
3. Calculer l’indice i correspondant au quantile à 95% et extraire la colonne d’indice i correspondant
au quantile empirique.
4. Tracer l’histogramme du quantile empirique et dessiner le quantile exact.
5. Calculer la variance de la distribution asymptotique du quantile.
6. Tracer la densité de probabilité de la distribution asymptotique du quantile empirique : reproduire
la figure 19.
5.7
5.7.1
Quantile de Wilks (*)
Expérience A
Exercice 42
Calculer les rangs des quantiles de Wilks associés à n = 100 et α = 0.5 (médiane) pour :
1. β = 0.5
2. β = 0.95
Calculer les rangs des quantiles de Wilks associés à α = 0.95 et β = 0.95 pour :
1. n = 53
2. n = 59
3. n = 124
4. n = 153
5.7.2
Expérience B
Exercice 43
On considère une variable X uniforme dans [0, 1]. On calcule le quantile empirique sur 200 réalisations
indépendantes de la variable X.
1. Générer 10000 réalisations du quantile empirique et tracer son histogramme.
2. Générer 10000 réalisations du quantile de Wilks à 95% de confiance et tracer son histogramme.
3. Reproduire la figure 20.
39
Figure 20 – Distribution du quantile à 95% d’une variable uniforme, par une méthode de Monte-Carlo
simple sur 200 réalisations, répétée 10000 fois. Comparaison avec le quantile de Wilks.
5.8
5.8.1
Fonction de répartition empirique
Expérience A
Exercice 44
On considère une variable X de loi normale standard. On souhaite comparer la fonction de répartition
empirique avec n=100 réalisations indépendantes et la fonction de répartition.
1. Générer n=100 réalisations de la variable X.
2. Ordonner les réalisations par ordre croissant.
3. Evaluer la fonction de répartition pour les réalisations.
4. Créer un graphique présentant la fonction de répartition empirique et la fonction de répartition.
5. Reproduire la figure 21.
5.8.2
Expérience B
Exercice 45
1. Répéter l’expérience A, avec X une variable exponentielle de moyenne µ = 5.
2. Reproduire la figure 22.
5.8.3
Expérience C (*)
Exercice 46
On souhaite évaluer la convergence de la fonction de répartition empirique sur n réalisations, lorsque
n augmente.
1. Répéter l’expérience B, avec n=100,200,500,1000.
2. Voir la figure 23.
40
Figure 21 – Fonction de répartition de la loi normale standard et fonction de répartition empirique avec
100 réalisations indépendantes.
Figure 22 – Fonction de répartition de la loi exponentielle de paramètre µ = 5 et fonction de répartition
empirique avec 100 réalisations indépendantes.
41
Figure 23 – Convergence de la fonction de répartition empirique de la loi exponentielle de paramètre
µ = 5 vers la fonction de répartition.
42
5.9
5.9.1
QQ-Plot
Rappel de cours
Soit X et Y deux variables aléatoires, de fonctions de répartion FX et FY . Soit xi et yi des réalisations
indépendantes de X et Y , pour i = 1, 2, ..., n. Le QQ-plot (quantile empirique,quantile empirique) permet de voir si la distribution FX est proche de FY , en calculant les distributions empiriques des deux
échantillons. On ordonne les réalisations par ordre croissant, de telle sorte que
x1 < x2 < ... < xn
et
y1 < y2 < ... < yn .
Alors x1 est le quantile empirique associé à la probabilité p1 = 0, puisqu’il n’y a pas de réalisation
strictement inférieure à x1 . De même, x2 est le quantile empirique associé à la probabilité p2 = 1/n,
puisqu’il y a une seule réalisation strictement inférieure à x2 (c’est x1 ).
De manière générale, xi est le quantile empirique associé à la probabilité pi = (i − 1)/n, pour
i = 1, 2, ..., n. En effet, il y a i − 1 réalisations strictement inférieures à xi , puisqu’il s’agit des réalisations
x1 , x2 , ..., xi−1 .
Le QQ-plot est le graphique présentant les couples (xi , yi ), pour i = 1, 2, ..., n. Si les distributions de
X et Y sont les mêmes, alors les couples devraient être placés dans le voisinage d’une droite. Pour le
vérifier, on peut tracer une droite qui relie les premiers et troisièmes quartiles.
Le QQ-plot (quantile empirique,quantile théorique) permet de comparer la distribution empirique
d’un échantillon avec une distribution de test FY . En effet, si on ne dispose que d’un échantillon
x1 , . . . , xn ,
alors on peut calculer les quantiles théoriques
yi = FY−1 (pi ),
où FY−1 est la fonction de répartition inverse (quantile) que l’on souhaite tester. Si les points (xi , yi ) sont
proches de la diagonale, alors la distribution de X est proche de FY .
5.9.2
Expérience A1
Exercice 47
On souhaite tracer le QQ-plot d’un échantillon de 50 réalisations d’une variable normale de moyenne
µ = 1 et d’écart-type σ = 3. L’objectif est de reproduire la figure 24.
1. Générer les réalisations x.
2. Ordonner les réalisations par ordre croissant.
3. Calculer les probabilités p associées à chaque réalisation.
4. Calculer les quantiles de la loi normale de moyenne µ = 1 et d’écart-type σ = 3, en inversant la
fonction de répartition pour les probabilités p.
5. Tracer le QQ-plot des réalisations, ainsi que la diagonale.
5.9.3
Squelette
function [y , p ] = quantileEmpirique ( x )
n = length ( x );
y = gsort (x , " g " ," i " );
p = [1: n ] / ( n +1);
endfunction
n =50; // taille de l ’ echantillon
mu =1;
43
Figure 24 – QQ-plot pour 50 réalisations d’une variable normale de moyenne µ = 1 et d’écart-type
σ = 3.
sigma = 3;
x = distfun_normrnd ( TODO );
[x , p ]= quantileEmpirique ( x );
y = distfun_norminv ( TODO );
scf ();
plot (x ,y , " bo " );
plot ([ x ( n /4) , x (3* n /4)] ,[ y ( n /4) , y (3* n /4)] , "r - " );
xtitle ( " QQ Plot " ," Data Quantile " ," Normal Quantile " );
5.9.4
Expérience A2
Exercice 48
On souhaite observer le QQ-plot d’une variable normale standard, lorsqu’on considère des probabilités
p régulièrement espacées. L’objectif est de reproduire la figure 25.
1. Calculer les quantiles q d’une variable normale standard, pour 20 valeurs de probabilité p uniformément réparties entre 0.01 et 0.99.
2. Dessiner ces quantiles sur un QQ-plot, en traçant les couples de points (qi , qi ).
3. Tracer les verticales et les horizontales correspondantes.
5.9.5
Expérience B (*)
Exercice 49
Répéter l’expérience A, avec la fonction qqplot du module Stixbox.
Reproduire la figure 26.
5.9.6
Expérience C (*)
Exercice 50
44
Figure 25 – QQ-plot pour 20 quantiles d’une variable normale de moyenne µ = 0 et d’écart-type σ = 1.
On souhaite observer un QQ-plot sur des données réelles, et non des données simulées comme dans les
expériences précédentes. On s’intéresse aux données de température corporelle et de pulsations cardiaques
issues des articles suivants :
1. Mackowiak, P. A., Wasserman, S. S., and Levine, M. M. (1992), ”A Critical Appraisal of 98.6
Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold
August Wunderlich”, Journal of the American Medical Association, 268, 1578-1580.
2. ”Datasets and Stories”, ”What’s Normal ? – Temperature, Gender, and Heart Rate” in the Journal
of Statistics Education (Shoemaker 1996).
Les données sont fournies dans le fichier "normtemp.dat.txt". Il y a trois colonnes :
1. Body temperature (degrees Fahrenheit),
2. Gender (1 = male, 2 = female),
3. Heart rate (beats per minute).
1. Lire les données dans la matrice x. Indication : utiliser fscanfMat.
2. Retirer la seconde colonne de la matrice x (c’est le sexe des participants, qui ne nous intéresse pas
ici).
3. Faire l’hypothèse que les deux variables (température et pulsations) suivent une loi normale, et
estimer la moyenne et la variance de chaque variable.
4. Tracer le qq-plot de la température et des pulsations, en faisant l’hypothèse de normalité.
5. Tracer l’histogramme empirique pour chaque variable.
6. Reproduire la figure 27.
7. Identifier les zones où l’hypothèse de normalité est discutable.
5.9.7
Expérience D (*)
Exercice 51
On s’intéresse aux données extraites de ”Les 500 premiers groupes français et européens”, Enjeux-Les
Echos, hors-série, novembre 1998 issues de ”La France en faits et chiffres” (2000), INSEE.
On dispose de 45 groupes francais de l’industrie et des services pour l’annee 1997 :
45
Figure 26 – QQ-plot pour 10, 50, 100 et 1000 réalisations d’une variable normale de moyenne µ = 1 et
d’écart-type σ = 3.
46
Figure 27 – Température du corps et pulsations cardiaques de 130 individus.
47
Figure 28 – Nombre de salariés (en milliers) et revenu net (en milliards de Francs) de 45 entreprises
françaises et européennes (1998).
1. chiffre d’affaire en milliards de francs (1ère colonne),
2. nombre de salariés en milliers (2ème colonne),
3. revenu net en milliards de francs (3ème colonne).
Les données sont fournies par le 23ième dataset de la fonction getdata du module Stixbox. On cherche
à voir si le nombre de salariés et le revenu net suivent une loi normale.
1. Lire les données. Indication : utiliser la fonction getdata.
2. Retirer la colonne numéro (Chiffre d’Affaire), qui ne nous intéresse pas dans cette étude.
3. Estimer la moyenne empirique et la variance empirique des deux variables.
4. Tracer le qq-plot et l’histogramme pour chacune des deux variables.
5. Reproduire la figure 28.
6. Identifier les zones des données où l’hypothèse de normalité est discutable.
5.9.8
Expérience E (*)
Exercice 52
Tracer le qq-plot et l’histogramme empirique de 10 000 réalisations d’une variable uniforme dans
[0, 1], en faisant l’hypothèse que les données suivent une loi normale.
Reproduire la figure 29.
48
Figure 29 – QQ-plot et histogramme de 10 000 réalisations d’une variable uniforme dans [0, 1].
Figure 30 – QQ-plot et histogramme de 10 000 réalisations d’une variable exponentielle de moyenne
µ = 1.
5.9.9
Expérience F (*)
Exercice 53
Tracer le qq-plot et l’histogramme empirique de 10 000 réalisations d’une variable exponentielle de
moyenne µ = 1, en faisant l’hypothèse que les données suivent une loi normale.
Reproduire la figure 30.
5.9.10
Expérience G (*)
Exercice 54
Tracer le qq-plot et les histogrammes empiriques de 10 000 réalisations de deux variables normales :
– une variable X de moyenne µ = 0 et d’écart-type σ = 1,
– une variable Y de moyenne µ = 0 et d’écart-type σ = 2.
Reproduire la figure 31.
49
Figure 31 – QQ-plot et histogramme de 10 000 réalisations d’une variable normale de moyenne µ = 0
et d’écart-type σ = 1 et d’une variable normale de moyenne µ = 0 et d’écart-type σ = 2.
Références
[1] Paul L. Meyer. Introductory Probability and Statistical Applications. Addison Wesley, 1970.
[2] Sheldon Ross. Introduction to Probability and Statistics for Engineers and Scientists, 3rd Edition.
Elsevier, 2004.
[3] Gilbert Saporta. Probabilites Analyse des Données et Statistique, 2ème Edition. Technip, 2006.
[4] Wikipedia. 68-95-99.7 rule — wikipedia, the free encyclopedia, 2015. [Online ; accessed 19-February2015].
[5] Wikipedia. Poisson distribution — wikipedia, the free encyclopedia, 2015. [Online ; accessed 19February-2015].
R
[6] A. T. Yalta. The accuracy of statistical distributions in microsoftexcel
2007. Comput. Stat. Data
Anal., 52(10) :4579–4586, Jun 2008.
50
Téléchargement