Statistiques pour l`ingénieur

publicité
Statistiques pour l’ingénieur
Pierre L. Douillet
14 décembre 2016
Le module stats a été enseigné durant les années 2001-2010
tant en promotion A1 qu’en promotion E1.
Ce module a été conçu comme un cours de stats-probas plutôt que comme traité de
probas-stats. Un cours est destiné à des étudiants qui abordent le domaine, et le principe d’ordonnancement est alors d’aller du facile vers le difficile. Un traité est destiné
à d’anciens étudiants, qui veulent réorganiser les connaissances acquises et en vérifier la
cohérence interne. Le principe d’ordonnancement est alors d’aller des fondements vers les
conséquences.
Il se trouve que les fondements sont toujours plus difficiles que le reste. Voila pourquoi ce
module, destiné à une première présentation du domaine stats-probas, suit un axe PascalBayes et non un axe Fehler-Kolmogorov. Cette présentation revient grosso-modo à suivre
l’ordre historique de développement du domaine.
Comme l’on sait, la réalité d’un enseignement est pilotée par les évaluations. Dans le
but de coller au mieux aux réalités industrielles, l’usage des documents personnels, en
particulier des notes de cours, a toujours été autorisée (et en fait encouragée) pendant les
évaluations.
Pour les trois années 2001-2004, l’évaluation s’est faite par un devoir surveillé avec usage
des calculatrices personnelles.
Pour les années suivantes, l’évaluation s’est faite sous forme de "travaux surveillés" sur
ordinateur, un étudiant par ordinateur, et un nombre suffisant de "surveillants" (l’enseignant et les chargés de TD).
Durant les trois années 2004-07, le logiciel utilisé pour les TD et les évaluations était
Maple, avec une feuille de calcul issue des TD. Le lien http://www.douillet.info/
~douillet/mathapp/stats/stats18.mws en donne une version Maple 18.00.
Durant les années 2007-10, le logiciel utilisé pour les TD et les évaluations était Scilab,
avec une feuille de calcul issue des TD: stats.sce.
En 2005-2007, la taille de la promotion E1 a nécessité deux sessions successives, avec des
valeurs numériques différentes.
En 2007-10, il y a eu trois sessions d’affilée avec, ici encore, des énoncés légèrement différents, chacun d’eux étant protégé par un mot de passe donné en début d’évaluation.
Comme on l’imagine, tout cela a supposé à la fois un parc informatique conséquent...et
la mobilisation des personnels du centre informatique. Qu’ils soient à nouveau remerciés
pour leur compétence et leur engagement.
Table des matières
Table des Matières
3
Liste des Figures
5
1 Distributions statistiques univariées
1.1 Généralités sur les statistiques . . .
1.2 Histogramme . . . . . . . . . . . .
1.3 Quelques commandes Scilab . . . .
1.4 Paramètres de dispersion . . . . . .
1.5 Souvenirs, souvenirs . . . . . . . . .
1.6 Moyenne . . . . . . . . . . . . . .
1.7 Variance . . . . . . . . . . . . . . .
1.8 Exemples . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
2 Distributions bivariées
2.1 Description du problème . . . . . . .
2.2 Indépendance complète . . . . . . . .
2.3 Droite de régression . . . . . . . . . .
2.4 Indépendance linéaire . . . . . . . . .
2.5 Exercices sur le web . . . . . . . . . .
2.6 Un exemple (DO) . . . . . . . . . . .
2.7 Régression affine (données groupées)
3 Probabilités
3.1 Probabilités . . . . . . . . . . . .
3.2 Probabilités conditionnelles . . .
3.3 Variables aléatoires . . . . . . . .
3.4 Dans le cas des variables discrètes
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
infinies .
4 Variables aléatoires discrètes
4.1 Loi uniforme sur {1, 2, · · · , m}. . .
4.2 Loi de Bernoulli. . . . . . . . . . .
4.3 Somme de variables indépendantes
4.4 Séries génératrices . . . . . . . . . .
4.5 Loi binomiale . . . . . . . . . . . .
4.6 Loi hypergéométrique . . . . . . . .
4.7 Exercices . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
9
9
9
10
11
12
.
.
.
.
.
.
.
15
15
16
17
17
18
18
19
.
.
.
.
21
21
22
23
24
.
.
.
.
.
.
.
25
25
25
25
26
26
27
27
4
TABLE DES MATIÈRES
5 Variables à densité
5.1 Principes généraux . . .
5.2 Loi uniforme . . . . . . .
5.3 Variables positives . . .
5.4 Formules de convolutions
5.5 Loi gamma . . . . . . .
6 Les
6.1
6.2
6.3
6.4
6.5
6.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
lois limites de la loi binomiale
Les deux types de clientelle . . . . . . . . . . . . .
La loi de Poisson, loi limite pour n p → λ ; n → ∞
La loi de Gauss, loi binomiale limite pour σ → ∞ .
Propriétés élémentaires . . . . . . . . . . . . . . . .
Théorème central limite . . . . . . . . . . . . . . .
La loi lognormale . . . . . . . . . . . . . . . . . . .
A Compléments
A.1 Formules de Morgan . . .
A.2 Loi géométrique . . . . . .
A.3 Passage de la loi binomiale
A.4 Loi normale . . . . . . . .
.
.
à
.
. . . . .
. . . . .
la loi de
. . . . .
. . . .
. . . .
Gauss
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
29
30
31
31
.
.
.
.
.
.
33
33
33
34
35
38
38
.
.
.
.
41
41
42
42
44
B Tableau de contingence
45
B.1 Distribution bivariée, distributions "à la marge" . . . . . . . . . . . . . . . 45
B.2 Méthode de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
C Deux lois utiles pour les processus
C.1 Loi de Poisson . . . . . . . . . . .
C.2 Loi exponentielle . . . . . . . . .
C.3 Inter-arrivées exponentielles . . .
References
d’attente
47
. . . . . . . . . . . . . . . . . . . . . . . 47
. . . . . . . . . . . . . . . . . . . . . . . 48
. . . . . . . . . . . . . . . . . . . . . . . 48
49
Table des figures
1.1
1.2
1.3
1.4
Histogramme des temps (aire totale =1). . . . .
Histogramme des temps (aire =1 par individu).
Cumuls croissant et décroissant. . . . . . . . . .
Représentation des paramètres de dispersion . .
2.1
2.2
Exemple de régression affine . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Distribution groupée : marguerites et bande de confiance. . . . . . . . . . . 20
6.1
6.2
6.3
6.4
Un exemple avec p petit. . . . . . . . . .
Sans changer p, mais avec n plus grand.
Convergence plus rapide lorsque p =√
0.5.
Loi lognormale avec M = 1000, k = 2.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 8
. 9
. 10
. 12
.
.
.
.
34
34
34
38
A.1 Visualisation de la formule A ∪ B = A ∩ B. . . . . . . . . . . . . . . . . . . 42
A.2 La courbe en cloche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
C.1 Loi de Poisson m = 1 et m = 5. . . . . . . . . . . . . . . . . . . . . . . . . 47
5
6
TABLE DES FIGURES
Chapitre 1
Distributions statistiques univariées
1.1
Généralités sur les statistiques
L’objectif des stats-probas est d’examiner les relations entre des connaissances portant
sur un "gros ensemble" Ω (appelé population ou univers) et des connaissances portant
sur un "petit sous-ensemble" ω (appelé échantillon).
Les statistiques s’occupent d’ensembles finis (on appelle N la taille de Ω, et n la taille
de ω), et partent de l’échantillon (qui a déjà été étudié) pour en tirer des conclusions sur
la population globale.
Les probabilités partent de propriétés supposées de la population globale, pour en tirer
des conclusions concernant un échantillon à venir. Les probabilités s’autorisent en outre
l’étude de populations infinies... et il convient alors de gérer les ennuis qui en résultent.
Caractère statistique X, Y, Z qualitatif ou quantitatif et alors discret ou continu.
On remarquera qu’une mesure (physique) consiste non pas en un nombre (cette table
fait un mètre) mais en un intervalle, par exemple (pour une mesure en centimètres)
0.995 m < x < 1.005 m. Une mesure introduit quasi inévitablement une discrétisation.
Univarié veut dire : on recense un seul caractère.
1.2
Histogramme
Definition 1.2.1. Histogramme. On porte le caractère en abscisse et l’effectif en surface.
Definition 1.2.2. DO (distribution observée). On reporte le nombre d’occurences de
chaque valeur dans un tableau.
Definition 1.2.3. DG (distribution groupée). On fractionne l’ensemble des valeurs en
intervalles disjoints (classes). Si "on groupe trop", on perd toute information. Si on "ne
groupe pas assez", l’information utile est noyée sous le bruit (les informations inutiles).
Notation 1.2.4. Nous utiliserons xj pour les valeurs, [aj , bj [ pour les P
classes, xej pour le
représentant de la classe (souvent le milieu), nj pour les effectifs, N = nj pour l’effectif
n
total, fj = Nj pour les fréquences.
Proposition 1.2.5. Les fréquences vérifient la relation :
X
∀i : fi ≥ 0 ;
fi = 1
i
7
(1.1)
8
1. Distributions statistiques univariées
Remark 1.2.6. Il est préférable de choisir des séparations qui ne soient pas des valeurs
atteintes, cela évite de discutailler sur la forme des intervalles.
Maple 1.2.7. Une "liste statistique" comportant x individus dans l’intervalle [a, b[ et y
individus valant c s’écrit : [Weight(a..b, x), Weight(c, y) ]
Maple 1.2.8. Pour regrouper ensemble les valeurs exactement égales d’une liste statistique donnée, on utilise la commande tally. Pour découper en classes une liste statistique
donnée, on commence par construire une liste d’intervalles lc puis on utilise la commande
tallyinto(li, lc) ;
Example 1.2.9. La Tab. 1.1 donne le relevé des temps nécessaires au piqûrage de carpettes dans un atelier de fabrication de tapis. On remarquera que le groupement des
durées par intervalles de 3.5 minutes est un artifice destiné à produire 7 classes. Un groupement par intervalles de 3 minutes ferait apparaître 8 classes. L’histogramme associé est
donné Fig. 1.1.
durée (mn)
0. .. 3.5
3.5 .. 7.0
7.0 .. 10.5
10.5 .. 14.0
14.0 .. 17.5
17.5 .. 21.0
21.0 .. 24.5
effectif
1
9
37
59
40
11
3
Tab.1.1 – Distribution des temps de piqûrage.
.10
.08
.06
.04
.02
5
10
15
20
25
Fig.1.1 – Histogramme des temps (aire totale =1).
Maple 1.2.10. Par défaut, la commande histo(li) trace un histogramme en fréquences
(aire totale =1). Pour obtenir un histogramme en effectifs (aire=1 pour un individu, cf
Fig. 1.2), utiliser
histo(li, area=count) ;
1.3. Quelques commandes Scilab
9
15
10
5
10
20
Fig.1.2 – Histogramme des temps (aire =1 par individu).
1.3
Quelques commandes Scilab
Egalité
1==1 répond T et 1==2 répond F car il s’agit d’un test d’égalité.
Nommage x=1==2 répond x=F : dans la boite nommée x on stocke la valeur de 1==2 c’est
à dire F (affectation)
Taille
size(4) répond 1 1 car le nombre 4 est en fait une matrice de taille 1 × 1
Vecteurs
il n’y a pas de vecteurs, mais des matrices filiformes (à deux dimensions)
Matrices
constructeur a=[1,2;3,4]. Accès "matriciel" et accès "vectoriel" (colonne de
colonnes). Pas de produit sans concordance dimensionnelle.
Fichiers
mopen, mgetline, mclose
Strings
msscanf, sprintf
Histo
histplot
Exercise 1.3.1. Examiner ce que donne 1/m lorsque la matrice m n’est pas carrée.
Exercise 1.3.2. Lire le fichier nist-ceramic.txt, extrait de Natrella (1963). Récupérer la
dernière colonne. En tracer l’histogramme. Mettre un titre.
Exercise 1.3.3. Que donne curax=gca() ? Que donne curh=curax.children(1).children ?
Comment obtenir des barres vertes entourées de bleu ?
1.4
Paramètres de dispersion
Definition 1.4.1. Pour une distribution univariée, on se donne pour objectif de ne garder
que deux nombres, l’un décrivant "le centre" de la distribution et l’autre son étendue. Ces
deux nombres portent le nom collectif de "paramètres de dispersion".
Comme pour un triangle, il y a plusieurs façons d’estimer quel est le centre...
1.5
Souvenirs, souvenirs
Du temps où les calculs se faisaient à la main, nous sont parvenues diverses méthodes
"sans calcul".
Remark 1.5.1. Défaut irréparable : ces quantités ne sont pas associatives . Deuxième défaut : ces "méthodes sans calcul" nécessitent en fait une certaine dose de "calcul mental"...
Definition 1.5.2. La médiane est la valeur associée à la place du milieu. Le nombre
d’individus placés avant la valeur donnée est égal au nombre d’individus placés après.
10
1. Distributions statistiques univariées
Definition 1.5.3. Les quartiles sont les valeurs associées aux places 1N/4, 2N/4 et 3N/4.
Le 2-ème quartile est donc la médiane. L’intervalle interquartile est l’intervalle séparant
le premier et le troisième quartile.
Maple 1.5.4. Le quartile numéro k de la liste li s’obtient par la commande
stats[describe, quartile[k]](li) ;
Scilab 1.5.5. Les commandes Scilab sont median et quartile. Il est possible de les
calculer sur la totalité d’une matrice, ou bien par lignes ou par colonnes.
Proposition 1.5.6. La médiane est la valeur qui minimise l’écart absolu moyen.
Ra
R +∞
Preuve. On a E (|x − a|) = −∞ (a − x) f (x) dx + a (x − a) f (x) dx. La dérivée de
Ra
cette quantité est 2 −∞ f (x) dx − 1.
Definition 1.5.7. Le mode est la valeur associée à la plus grande fréquence.
Exercise 1.5.8. Calculer médiane, quartiles et mode associés à la distribution de la
Fig. 1.1.
Definition 1.5.9. Effectifs cumulés croissants : on place les points (x, P r (X ≤ x)).
Effectifs cumulés décroissants : on place les points (x, P r (X ≥ x)). On obtient la Fig. 1.3.
Remark 1.5.10. A nouveau : lorsque l’on regroupe les données dans des classes, il est
intéressant de choisir pour bornes des valeurs qui ne sont pas atteintes, de façon à ne pas
avoir à gérer ce qui se passe aux bornes.
Exercise 1.5.11. Tracer les deux polygones des effectifs cumulés. Les utiliser pour retrouver la médiane.
160
120
80
40
0
9.84
15.2
24.5
Fig.1.3 – Cumuls croissant et décroissant.
1.6
Moyenne
Definition 1.6.1. La moyenne d’une liste statistique s’obtient par somme pondérée (barycentre). On a donc
X
1 X
moy (x) =
n i xi =
f i xi
N
Dans la partie "probas" du domaine stats/probas, cette même quantité se note E (X)
(espérance de la variable x).
1.7. Variance
11
Maple 1.6.2. La moyenne s’obtient par l’opérateur moy, que l’on définit par la commande :
macro(moy=stats[describe, mean]) ;
Exercise 1.6.3. Calculer la moyenne de la distribution ci-dessus.
Proposition 1.6.4. L’espérance est un opérateur linéaire :
moy (x + λ) = moy (x) + λ et
moy (λ x) = λ moy (x)
Exercise 1.6.5. Reprendre le calcul ci-dessus en utilisant un changement de variable.
Definition 1.6.6. La quantité x − moy (x) s’appelle la variable centrée, ou encore l’écart
à la moyenne. La quantité x − a s’appelle l’écart par rapport à la valeur a.
Proposition 1.6.7. La moyenne des écarts à la moyenne est nulle.
1.7
Variance
Proposition 1.7.1. Formule des "degrés de liberté".
4
X
1
2
1
(xi − a) = 4 a − (x1 + x2 + x3 + x4 ) +
4
2
2
2
1
3
1
1
+
x4 − (x1 + x2 + x3 ) +
x3 − (x1 + x2 ) + (x4 − x3 )2
4
3
3
2
2
2
Le rang d’une forme quadratique est le nombre de carrés de formes linéaires indépendantes
nécessaires pour constituer la forme quadratique considérée. On voit que le choix a =
moy (x) minimise cette expression, et fait passer le nombre de carrés à n − 1 au lieu de n.
P
Definition 1.7.2. Variance : on pose var (x) = N1
ni (xi − moy (x))2 .
Maple 1.7.3. La variance s’obtient par l’opérateur var, que l’on définit par la commande :
macro(var=stats[describe, variance]) ;
Scilab 1.7.4. La commande Scilab mean donne la moyenne, et la commande Scilab
variance ne donne pas la variance.
Exercise 1.7.5. Calculer la variance de la distribution donnée en exemple.
Proposition 1.7.6. La variance vérifie les formules :
var (x + λ) = var (x)
et
var (λ x) = λ2 var (x)
Exercise 1.7.7. Reprendre le calcul ci-dessus en utilisant un changement de variable.
Proposition 1.7.8 (Koenig). Formule de calcul :
var (x) = moy x2 − (moy (x))2
(1.2)
Scilab 1.7.9. Lorsque M est une matrice contenant une donnée par case, la variance de
ces données vaut : mean(M.*M)-mean(M)ˆ2
12
1. Distributions statistiques univariées
480 valeurs issues de ceramis−nist
0.006
0.005
0.004
0.003
0.002
0.001
0.000
300
350
400
450
500
550
600
650
700
750
800
850
Fig.1.4 – Représentation des paramètres de dispersion
Remark 1.7.10. En attendant le cours sur les intervalles de confiance, il est convenu de
représenter la dispersion d’une population en reportant une fois l’écart-type de part et
d’autre de la moyenne (Fig. 1.4).
Proposition 1.7.11 (Huygens). Pour toute constante a ∈ R :
moy (x − a)2 = var (x) + (a − moy (x))2
(1.3)
Exercise 1.7.12. Regroupement de données. On suppose connues les moyennes et les
variances de deux populations disjointes Ω1 et Ω2 . Donner la moyenne et la variance de
Ω = Ω1 ∪ Ω2 .
Remark 1.7.13. Cet Exercice 1.7.12 est sorti à chacun des DS des années précédentes.
p
Definition 1.7.14. L’écart-type est défini par σ (x) = var (x). Est de même dimension
que x. Le calcul de moyenne des carrés augmente le poids des grands écarts.
Definition 1.7.15. La variable réduite associée à une variable x est définie par :
ξ=
x−x
σ
Cette quantité est une variable sans dimensions, concept essentiel pour pouvoir comparer
des populations ayant des natures différentes.
1.8
Exemples
Calculer les paramètres de dispersion et tracer les graphes :
Exercise 1.8.1. La Tab. 1.2 donne la distribution des longueurs de 300 fibres à l’appareil
WIRA.
Exercise 1.8.2. Le tableau ci-dessous donne la liste des années de naissance de chacun des
32 membres d’un atelier. Entreprendre le traitement statistique de ces données. Recommencer en groupant les dates de naissance par classes de quatre années, en commençant
par l’année 1940. Comparer les résultats.
1.8. Exemples
13
classes effectifs
4 .. 4.5
2
4.5 .. 5
2
5 .. 5.5
3
5.5 .. 6
6
6 .. 6.5
9
6.5 .. 7
15
7 .. 7.5
42
7.5 .. 8
47
classes
effectifs
8 .. 8.5
42
8.5 .. 9
36
9 .. 9.5
49
9.5 .. 10
22
10 .. 10.5
16
10.5 .. 11
6
11 .. 11.5
2
11.5 .. 12
1
Tab.1.2 – Appareil WIRA
1948
1950
1944
1958
1946
1956
1953
1945
1946
1957
1941
1949
1945
1949
1956
1955
1953
1940
1942
1962
1953
1949
1956
1957
1951
1948
1963
1946
1950
1960
1954
1951
Exercise 1.8.3. Le tableau ci-dessous donne la répartition des salariés d’une certaine
entreprise en fonction de leur salaire. Moyenne, écart-type ?
salaire moins de 60 60 à 72
nombre
12
23
72 à 84
39
84 à 102
60
120 à 180
55
plus de 180
35
14
1. Distributions statistiques univariées
Chapitre 2
Distributions bivariées
2.1
Description du problème
Definition 2.1.1. Distribution bivariée. On recense deux caractères. Les mesures sont
donc formées de couples (x, y).
Remark 2.1.2. Les stats-proba recherchent d’éventuelles corrélations entre les valeurs
prises par les grandeurs X et Y . Lorsqu’une telle corrélation existe, elle ne suffit pas
à prouver une causalité. Par ailleurs, il peut exister une relation de causalité sans que
telle ou telle technique de corrélation puisse rendre apparente cette causalité.
Definition 2.1.3 (DO). La distribution observée est la série brute des données recensées.
Scilab 2.1.4. Une DO représente par deux vecteurs X et Y de même taille, les valeurs
étant appariées par rang.
Definition 2.1.5 (DG). En regroupe les données de chaque sorte (les x et les y) en
classes, on obtient une nouvelle distribution (elle dépend des groupements choisis). Et on
présente le tout dans un tableau, le tableau de contingence (cf Tab. 2.1).
↓x y→
10
20
30
40
[10, 20] [20, 30] [30, 40] [40, 50]
20
4
1
0
10
36
9
0
0
5
10
0
0
0
0
5
Tab.2.1 – Tableau de contingence : un exemple
Remark 2.1.6. Ce qui concernait l’utilisation du tableau de contingence pour le calcul
manuel a été relégué en Annexe B .
Scilab 2.1.7. Une DG se représente par les vecteurs X et Y des centres de classes et par
la matrice des fréquences. Le vecteur X donne les titres des lignes et est donc en colonne,
tandis que le vecteur Y donne les titres des colonnes et est donc en ligne.
Definition 2.1.8. Distribution marginale. S’appelle ainsi parce qu’on note les valeurs
correspondantes dans les marges du tableau. Il s’agit de la distribution de x seul (en
oubliant les valeurs
P de y), ou dePla distribution de y seul. Les effectifs marginaux se
notent : nj∗ = k nj k et n∗k = j nj k . Les fréquences marginales sont fj∗ = N1 nj∗ et
f∗k = N1 n∗k .
15
16
2. Distributions bivariées
Scilab 2.1.9. On obtient les effectifs marginaux par :
fx=sum(fre,’c’), fy=sum(fre,’r’)
fx est une matrice colonne et fy une matrice ligne.
2.2
Indépendance complète
Caveat : ne pas confondre avec l’indépendance linéaire (qui sera définie par la suite).
Definition 2.2.1. Distribution conditionnelle. La distribution d’une modalité conditionnée par une valeur effectivement atteinte par l’autre modalité est la distribution de la
sous-population correspondante. Ainsi, la distribution en fréquence
par
de36y conditionnée
9
,
,
,
0
.
x = 10 est [0.80, 0.16, 0.04, 0]. Celle conditionnée par x = 20 est 10
45 45 45
Definition 2.2.2. Indépendance complète. On dit que x et y sont complètement indépendantes lorsque toutes les distributions en fréquence de y conditionnées par les diverses
valeurs de x sont égales entre elles.
Exercise 2.2.3. Montrer que ces distributions en fréquence sont alors égales à la distribution marginale.
Exercise 2.2.4. Montrer que l’indépendance complète est une relation symétrique en x
et y.
Exercise 2.2.5. Montrer que, s’il y a indépendance complète, on peut reconstituer le
tableau de contingence à partir des distributions marginales.
Theorem 2.2.6. Si les deux variables X et Y sont complètement indépendantes, on a
alors
var (X + Y ) = var (X) + var (Y )
Preuve. Soient pj = P r (X = xj ), qk = P r (Y = yk ) et Pjk = P r (X = xj et Y = yk ). On a
P
P
x − y)2P
= pj qkP(ξj +Pηk )2
var (X + Y ) = P Pjk (xP
j + yk − P
(2.1)
qk + 2 pj ξj
qk ηk + pj
qk ηk2
=
pj ξj2
= var (X) × 1 + 0 × 0 + 1 × var (Y )
en posant ξj = xj − x et ηk = yk − y (variables centrées).
Definition 2.2.7. On appelle covariance de X et de Y la quantité :
cov (X, Y ) = E ((x − moy (x)) (y − moy (y)))
(2.2)
Proposition 2.2.8. Dans tous les cas,
var (X + Y ) = var (X) + var (Y ) + 2 cov (X, Y )
Preuve. Calcul direct ou ... polarisation d’une forme quadratique.
Maple 2.2.9. .La covariance s’obtient par l’opérateur cov, que l’on définit par la commande :
with(simul) ; macro(cov=xcov) ;
Prendre garde au fait que le programme "stats[covariance]", fourni par Waterloo est faux
(mal programmé). Cela se voit au fait que stats[covariance](li,li) ne redonne pas
var(li).
Scilab 2.2.10. La covariance s’obtient par covar(x,y,fre), tandis que les moyennes
pondérées s’obtiennent par meanf(x,fx).
2.3. Droite de régression
2.3
17
Droite de régression
Definition 2.3.1. Etant donné un ensemble de couples (x, y), on appelle droite de régression affine de la variable Y par rapport à la variable X la droite yprev = αx + β
conduisant à la valeur minimale de l’expression : E (y − yprev )2 . Ce minimum s’appelle
la variance réduite de Y .
Theorem 2.3.2. La droite de régression (de y par rapport à x) est donnée par :
yprev = E (y) + α (x − E (x)) ,
avec α =
cov (x, y)
var (x)
(2.3)
et le facteur de réduction de variance FRV par :
.
F RV =
var (y)
1
=
,
var_reduite (y)
1 − r2
avec r =
cov
σx σy
Remark 2.3.3. On remarquera la disparition de β qui n’a pas forcément de signification
(lorsque x = 0 n’est pas réaliste).
Preuve. Posons χ2 = E (y − yprev )2 . Si l’on considère, pour a fixé, la nouvelle variable
Z = Y − a X on a χ2 = E (z − b)2 . La Proposition 1.7.11 (Huygens) nous donne
χ2 = var (Z) + (E (Z) − b)2 . Pour une direction donnée, la meilleure droite est donc celle
qui passe par le point moyen (E (X) , E (Y )).
.
.
Considérons les variables centrées ξ = x − E (X) et η = y − E (Y ). On a alors
χ2 = E (η − a ξ)2 = E η 2 − 2a E (ξ η) + a2 E ξ 2 = var (y) − 2a cov + a2 var (ξ)
On reconnait alors un trinome en la variable a et la conclusion suit.
Remark 2.3.4. Le F RV est une mesure de la qualité de l’approximation. Plus il est élevé,
meilleure est l’approximation.
Proposition 2.3.5. L’écart quadratique moyen entre un nuage de points (x, y) et la
droite y = A x + B est donné par :
χ2 = (E (y) − A E (x) − B)2 + (A − α)2 var (x) + var (y) ÷ F RV
Remark 2.3.6. On peut faire la même chose dans le sens y vers x. Cela donne le même
coefficient de corrélation, mais les droites de tendance ne sont pas les mêmes.
Exercise 2.3.7. Quelle est la valeur du F RV pour r = 0.3 ? Quelle valeur de r conduit
à un F RV égal à 2 ?
2.4
Indépendance linéaire
Caveat : ne pas confondre avec indépendance complète.
Theorem 2.4.1. Sur l’espace des variables, la moyenne est une forme linéaire. Sur l’espace des variables centrées, la variance est une forme quadratique, dont la covariance est
la polarisée. On a donc :
moy (a x + b y) = a moy (x) + b moy (y)
var (a x + b y) = a2 var (x) + b2 var (y) + 2a b cov (x, y)
18
2. Distributions bivariées
Definition 2.4.2. On dit que deux variables X, Y sont linéairement indépendantes
lorsque cov (X, Y ) = 0. Cette définition équivaut donc à var (X + Y ) = var (X)+var (Y ).
Definition 2.4.3. Coefficient de corrélation. On pose r =
grandeur sans dimensions (c’est à dire un nombre).
cov (x, y)
.
σx σy
Ce coefficient est une
Exercise 2.4.4. Montrer r est toujours compris dans l’intervalle [−1 ; +1].
cov
≈ 0.0006 . Le caractère x
Example 2.4.5. Dans l’exemple ci-dessus, on a r2 = var(x)
var(y)
intervient dans 0.06 % de la variance de y : les caractères x et y sont (presque) linéairement
indépendants.
Exercise 2.4.6. On considère les 7 couples définis par x = −3, −2, −1, 0, +1, +2, +3
et par y = x2 . Poser les calculs et conclure.
2.5
Exercices sur le web
www.obs-vlfr.fr/~enseigne/maitp6/poly_exo/corrregr.htm: Maitrise BPE (upmc)
2.6
Un exemple (DO)
Exercise 2.6.1. On considère la série de points :
[4.11, 12.6], [5.73, 12.8], [5.47, 11.2], [5.16, 11.9], [2.44, 9.58]
[6.98, 16.9], [2.94, 7.59], [4.34, 12.5], [2.47, 8.14], [6.16, 16.8]
1. Les sommes valent :
P
P
P
1
=
10,
x
=
45.80,
yP
= 120.01
P 2
P
x = 232.4712,
x y = 589.2936,
y 2 = 1529.3941
2. Les paramètres de dispersion valent
n = 10., x = 4.580, y = 12.001, σx2 = 2.270720, cov = 3.964780, σy2 = 8.915409
3. Le facteur de réduction de variance et l’écart-type résiduel valent :
f rv = 4.473981996 et σresiduel = 1.411638582
4. La droite de régression est 4.004112494 + 1.746045307 x
15
9.02
3.07
6.09
Fig.2.1 – Exemple de régression affine
2.7. Régression affine (données groupées)
19
Scilab 2.6.2. n=size(x,’*’) ; mx=mean(xx) ; vx=covar(xx,xx,eye(n,n)) ;
Exercise 2.6.3. Recommencer la série :
[6.67, −10.7], [6.36, −11.3], [2.51, −3.14], [3.47, −5.82], [3.37, .24]
[5.93, −5.76], [6.17, −9.54], [5.41, −8.51], [2.09, 1.81], [3.45, −.61]
Exercise 2.6.4. De même avec On recommence avec
[2.48, 5.73], [3.73, 7.77], [3.10, 6.55], [2.69, 5.46], [4.88, 10.6]
[4.98, 10.6], [4.47, 8.98], [4.75, 9.57], [4.21, 8.74], [3.29, 6.64]
2.7
Régression affine (données groupées)
(y
Exercise 2.7.1. Traiter la distribution groupée : (y
(y
(y
= 5)
= 4)
= 3)
= 1)
(x = 1)
9
6
2
0
(2)
6
7
3
3
(3)
2
5
5
2
(5)
1
3
6
5
(6)
0
2
4
9
1. Description Maple du problème
N:= Matrix([[9, 6, 2, 1, K], [6, 7, 5, 3, 2],
[2, 3, 5, 6, 4], [K, 3, 2, 5, 9]]) ;
X:= Transpose(< 1,2,3,5,6 >) ; Y:= < 5,4,3,1 > ;
visu:= < < “, map(Z -> “(Z), Y) > | < map(Z -> “(Z), X), N > > ;
2. Calcul des paramètres de dispersion (utilisant les macros nbr, moy, var, cov).
yy,xx:= Dimension(N) :
datx:= [seq(seq(Weight(X[j], N[i,j]), i=1..yy),j=1..xx)] :
daty:= [seq(seq(Weight(Y[i], N[i,j]), i=1..yy),j=1..xx)] :
datx, daty:= remove(has,datx,K), remove(has,daty,K) :
nn:= nbr(datx) ; mx, my:= moy(datx), moy(daty) ;
vx, vxy, vy:= var(datx), cov(datx, daty), var(daty);
FRV:=1/(1-vxy^2/vx/vy) ; evalf(%) ;
nn := 80, 80
;
mx, my :=
131 261
,
40 80
F RV :=
;
vx, vxy, vy :=
5519 −4991 13239
,
,
1600 3200 6400
73066041
≈ 1.517
48155960
3. Droite de régression et tracé (Fig. 2.2).
regr:= my+(x-mx)*vxy/vx ;
pl1:=plot({regr+sqrt(vy/FRV), regr-sqrt(vy/FRV)}, x=0..7, color=blue):
pl2:= plot({my+sqrt(vy), my-sqrt(vy)}, x=0..7, color=red) :
stats[statplots,scatterplot](datx, daty, format=sunflower, color=black):
displayg(pl2, pl1, yshift(-0.5, xshift(-0.5, %)), scaling=constrained,
labels=[“,“], tickmarks=[[1,6],[1,5]]) ;
droite :=
52357
4991
−
x
11038 11038
20
2. Distributions bivariées
5
1
1
6
Fig.2.2 – Distribution groupée : marguerites et bande de confiance.
Exercise 2.7.2. La distribution de la Tab. 2.2 concerne 50 points (x, y) avec x = 1, 2, 4, 5
et y = 1, 4, 6, 7. Déterminer la meilleure droite de régression affine et le F RV ainsi obtenu.
Illustration graphique.
↓y
x→
7
6
4
1
1
7
3
2
1
2
3
7
2
3
4
1
3
6
3
5
1
1
3
4
Tab.2.2 – Les données de l’exercice 2.7.2.
Chapitre 3
Probabilités
3.1
Probabilités
Definition 3.1.1. Univers Ω "ensemble des résultats possibles".
Definition 3.1.2. Dans le cas fini, un événement est une partie (quelconque) de Ω. Dans
le cas infini, c’est un peu plus compliqué. Dans tous les cas, l’ensemble des événements
est clos par complémentarité, intersection et réunion finie.
Definition 3.1.3. Un événement élémentaire est un événement qui s’écrit {x} avec x ∈ Ω.
Definition 3.1.4. Evénements incompatibles est A ∩ B = ∅.
Definition 3.1.5. Une probabilité (ou encore : une mesure de probabilité) est une fonction
vérifiant :
P (Ω) ,→ R+
P r (Ω) = 1
P r (A ∪ B) = P r (A) + P r (B) lorsque A ∩ B = ∅
Dans le cas où Ω est fini, cela suffit. Sinon, cela est un peu plus compliqué.
.
Proposition 3.1.6. Si l’on utilise la notation P r (ωj ) = P r ({ωj }), alors
A = {ω1 , ω2 , ω3 , · · · , ωn }
=⇒
P r (A) =
n
X
P r (ωj )
1
Exercise 3.1.7. Montrer que cette formule ne peut absolument pas s’appliquer au cas
infini.
Proposition 3.1.8. Pr (A ∪ B) = P r (A) + P r (B) − P r (A ∩ B).
En particulier, P r {A = 1 − P r (A).
Proposition 3.1.9. Dans le cas d’un univers fini de résultats équiprobables, P r (A) =
#A
.
#Ω
Exercise 3.1.10. Vous faites partie d’un groupe de 12 personnes. Un sous-groupe de
quatre personnes est choisi de façon équiprobable. Calculer, de plusieurs façons, la probabilité pour que vous soyez membre du sous-groupe choisi.
Exercise 3.1.11. Le problème du chevalier de Méré. Déterminer quel est l’événement le
plus probable : obtenir au moins un as en lançant 4 fois un dé, ou bien obtenir au moins
un double as en lançant 24 fois deux dés ?
21
22
3. Probabilités
3.2
Probabilités conditionnelles
Definition 3.2.1. Probabilité de A quand E a eu lieu. Lorsque P r (E) 6= 0, on pose :
. P r (A ∩ E)
P r (A | E) =
P r (E)
Exercise 3.2.2. Vérifier que P r (. | E) est une probabilité sur Ω.
Definition 3.2.3. Deux événements A, B sont (complètement) indépendants veut dire
P r (A | B) = P r (A) c0 est à dire : P r (A ∩ B) = P r (A) × P r (B)
Exercise 3.2.4. On lance un dé : Ω = {1, 2, 3, 4, 5, 6}. On appelle "pair" l’événement
A = {2, 4, 6} et "passe" l’événement {4, 5, 6}. Quelle est la probabilité (ordinaire) de
"passe", sa probabilité sachant que pair a eu lieu, sa probabilité sachant que pair n’a pas
eu lieu.
Definition 3.2.5. On appelle partition de Ω une famille (Ai )i∈I de parties de Ω telle que :
∀i : Ai 6= ∅ ; Ai ∩ Aj 6= ∅ ⇒ i 6= j ; ∪Ai = Ω
En probabilités, on est plutôt intéressé par une "bonne partition", vérifiant la condition
plus restrictive :
∀i : P r (Ai ) 6= 0
Proposition 3.2.6. Formule des "probabilités totales" : si (Ai )1≤i≤n est une bonne partition de Ω alors
n
X
P r (B) =
P r (B | Ai ) P r (Ai )
1
Exercise 3.2.7. Démontrer cette formule des probabilités totales.
Proposition 3.2.8 (Bayes). Lorsque P r (A) 6= 0 et P r (B) 6= 0, on a la formule :
P r (B | A) = P r (A | B)
P r (B)
P r (A)
Example 3.2.9. On lance deux dés et l’on cherche la probabilité de faire au moins un
as. Comparons plusieurs méthodes.
1. Utilisation du complémentaire. Soit Ω = {11, 01, 10, 00} en appelant (par exemple)
01 l’événement "pas d’as la première fois, un as la deuxième fois". Alors l’événement favorable est α = {11, 01, 10}. Son complémentaire est {α = {00} . Par
indépendance des deux lancers, la probabilité de {α est le produit de P r (x1 6= 1)
par P r (x2 6= 1). Soit
5 5
11
P r (α) = 1 −
×
=
6 6
36
2. Disjonction des cas. Par la méthode précédente, on détermine les probabilités de
chacun des événements élémentaires (deux à deux incompatibles) composant α et
on les additionne. On obtient :
1 1
5 1
1 5
P r (α) =
×
+
×
+
×
6 6
6 6
6 6
3.3. Variables aléatoires
23
3. Probabilités totales. Soient B1 et B2 les événements : l’as est sorti (resp. n’est
pas sorti) au premier lancer. Ces événements forment une partition de Ω, ce que
l’on peut finir de rendre évident en les écrivant sous la forme B1 = {10, 11} et
B2 = {00, 01}. On a alors P r (α | B1 ) = 1 et P r (α | B2 ) = 1/6. Et donc
P r (α) = P r (α | B1 ) P r (B1 ) + P r (α | B2 ) P r (B2 ) = 1 ×
11
1 1 5
+ × =
6 6 6
36
4. Formule de la réunion. Soit C1 l’événement : l’as est sorti au deuxième lancer. On a
α = B1 ∪ C1 . En additionnant les probabilités, on compterait deux fois l’événement
"l’as est sorti à chaque fois". Et donc
P r (α) = P r (B1 ) + P r (C1 ) − P r (B1 ∩ C1 ) =
1
11
1 1
+ −
=
6 6 36
36
Exercise 3.2.10. Une urne contient trois boules blanches et deux noires, et on tire successivement deux boules. A est "tirer deux boules de même couleur", B1 est "la première
boule est blanche", B2 est "la première boule est noire". On a P r (A) = P r (A | B1 ) P r (B1 )+
= 34 .
P r (A | B2 ) P r (B2 ) = 24 35 + 41 25 = 52 . Et de plus P r (B1 | A) = 21 3/5
2/5
Exercise 3.2.11. Vous faites partie d’un groupe de 12 personnes. Un sous-groupe de
quatre personnes est choisi de façon équiprobable. Utiliser les probabilités conditionnelles
pour retrouver la probabilité pour que vous soyez membre du sous-groupe choisi.
Exercise 3.2.12. Peut-on déterminer P r (A) et P r (B) sachant que P r (A ∪ B) = 0.7 et
que P r (A ∩ B) = 0.1 ? Et si l’on rajoute l’hypothèse d’indépendance (complète) entre
les deux événements ?
Exercise 3.2.13. On examine des pièces de tissu. Lorsque la pièce est conforme au cahier
des charges, sa probabilité d’acceptation est de 95%. Lorsque la pièce est défectueuse, sa
probabilité de rejet est de 98%. Soit p la proportion de pièces défectueuses par rapport
au total. Déterminer la proportion q de pièces effectivement défectueuses parmi les pièces
mises au rebut. Quelle est les valeurs de p correspondant à q ≥ 80% ?
Exercise 3.2.14. Bénéfice escompté.
3.3
Variables aléatoires
Definition 3.3.1. Une variable discrète est (Z, P r (.)), une variable continue est (R, P r (.)).
Le cas fini se traite par plongement dans Z et les "ensembles non-tordus" par plongement
dans R.
Definition 3.3.2. Fonction de répartition F (x) = P r (]−∞, x[) = P r (X < x).
Proposition 3.3.3. Une fonction de répartition F est croissante, continue à gauche et
vérifie
F (−∞) = 0 ; F (+∞) = 1 ; P r (a ≤ X < b) = F (b) − F (a)
Exercise 3.3.4. Vérifier que P r (a ≤ X ≤ b) = inf {F (x) | x > b} − F (a).
Proposition 3.3.5. La fonction de répartition est continue en x = a si et seulement si
P r (X = a) = 0.
24
3. Probabilités
3.3.6. Densité. Si f R: R ,→ R est continue par morceaux, positive et vérifie
RDefinition
+∞
f
(t)
dt
= 1, alors P r (A) = A f (t) dt définit une v.a. continue. On dit alors que f
−∞
est la densité de probabilité de cette variable.
Definition 3.3.7. Espérance. Pour une variable discrète X, on définit
X
E (X) =
k P r (X = k)
k∈Z
Proposition 3.3.8. Dans le cas d’un jeu de hasard, l’espérance de gain permet de déterminer la "mise équitable", c’est à dire la mise qui, sur le long terme, n’avantage ni le
parieur ni celui qui prend les paris.
Exercise 3.3.9. On lance une pièce une fois. Si pile apparait, on gagne 2€. Quelle est la
mise équitable ?
Exercise 3.3.10. On lance une pièce trois fois. Si la première apparition de pile se produit
au troisième lancer, on gagne 8€. Quelle est la mise équitable ?
Exercise 3.3.11. On lance une pièce jusqu’à ce que pile apparaisse. Si le nombre de
lancers a été n, on gagne 2n €. Quelle est la mise équitable ?
.
Definition 3.3.12. Variance. On définit var (X) = E ((X − E (X))2 ), et on obtient la
formule var (X) = E (X 2 ) − (E (X))2 .
3.4
Dans le cas des variables discrètes infinies
P
P
La convergence des deux quantités E (X) = n∈N xn pn et E (X 2 ) = n∈N x2n pn ne
sont plus automatiques : il faut donc commencer par vérifier que ces sommes sont bien
définies.
Chapitre 4
Variables aléatoires discrètes
4.1
Loi uniforme sur {1, 2, · · · , m}.
Definition 4.1.1. P r (X = k) =
1
m
si k ∈ Ω et 0 sinon.
Proposition 4.1.2. Formules :
E (X) = (m + 1) ÷ 2 et var (X) = n2 − 1 ÷ 12
Exercise 4.1.3. Retrouver ces formules. On pourra utiliser une sommation télescopique
des relations (k + 1)2 − k 2 = 2 k + 1 et (k + 1)3 − k 3 = 3 k 2 + 3 k + 1.
R x=n
R x=n+1
P
2
dx. Peut-on
Exercise 4.1.4. Comparer k=n
k=1 k avec les intégrales x=0 dx et x=1
trouver une meilleure approximation ?
Exercise 4.1.5. Déterminer les moments, c’est à dire les espérances E (X n ) pour n ∈ N.
En déduire les moments centrés, c’est à dire les espérances E ((X − E (X))n ).
4.2
Loi de Bernoulli.
Definition 4.2.1. P r (X = 1) = p (succès) et P r (X = 0) = 1 − p.
Proposition 4.2.2. Formules : E (X) = p et var (X) = p (1 − p).
4.3
Somme de variables indépendantes
Theorem 4.3.1. Si X et Y sont deux variables aléatoires discrètes, la loi de la somme
Z = X + Y est
X
P r (Z = z) =
P r (X = x) × P r (Y = z − x)
x∈Z
Definition 4.3.2. Cette loi de composition s’appelle : convolution
Exercise 4.3.3. On lance deux dés. Quelle est la loi de la somme A = x + y ? Quelle est
la loi de la différence B = x − y ? Quelle est la corrélation entre A et B ?
25
26
4.4
4. Variables aléatoires discrètes
Séries génératrices
P
Definition 4.4.1. Séries génératrices. S (z) = k P r (X = k) z k avec z ∈ C. Il est clair
que cette série converge uniformément pour |z| ≤ 1 − ε.
Exercise 4.4.2. Vérifier que, pour la loi de Bernoulli, S (z) = q + p z.
Theorem 4.4.3. Pour une variable à support fini, on a
X
1=
P r (X = k) = S (1)
k
E (X) =
X
k P r (X = k) = S 0 (1)
k
2
var (X) = S 00 (1) + S 0 (1) − (S 0 (1))
Preuve. S 00 (1) =
P
k
k (k − 1) P r (X = k) = E (X (X − 1)).
Exercise 4.4.4. Vérifier ces formules pour la loi de Bernoulli S (z) = q + p z.
Exercise 4.4.5. Vérifier que la série génératrice d’une variable uniforme sur {1, 2, · · · , m}
est
1 z m+1 − z
S (z) =
m z−1
Utiliser ce résultat pour retrouver les paramètres de dispersion.
Theorem 4.4.6. La série génératrice de la somme de deux variables aléatoires discrètes
indépendantes est le produit des séries génératrices.
4.5
Loi binomiale
Definition 4.5.1. K = Bin (n, p) est la loi du nombre de succès en n épreuves de
Bernoulli indépendantes.
Proposition 4.5.2. Formules :
n k n−k
P r (K = k) =
p q
; E (K) = n p ; var (K) = n p q
k
Exercise 4.5.3. Vérifier ces formules par un calcul direct pour n = 2, n = 3 et n = 4.
Exercise 4.5.4. Retrouver ces formules en appliquant les théorèmes généraux sur les
espérances et les variances.
Exercise 4.5.5. Déterminer les espérances E (K n ) (moments d’ordre n) pour n ∈ N. En
déduire les espérances E ((K − E (K))n ) (moments centrés d’ordre n).
Exercise 4.5.6. Vérifier que l’on a S (z) = (q + p z)n . Utiliser ce résultat pour retrouver
E (K) et var (K).
Exercise 4.5.7. Tracer les histogrammes correspondants à n = 5, n = 10, n = 20 et
n = 40 pour p = 21 , puis pour p choisi de façon que n p = 1.Que peut-on dire de la somme
de deux variables binomiales indépendantes ?
4.6. Loi hypergéométrique
4.6
27
Loi hypergéométrique
Definition 4.6.1. On prélève, sans remise et avec une probabilité uniforme, un échantillon
de taille n au sein d’une population de N individus. On s’intéresse à un certain caractère
binaire (i.e. présent ou absent), et on appelle m le nombre d’occurences de ce caractère
dans l’échantillon et p sa prévalence (fréquence) dans la population.
Proposition 4.6.2. La loi hypergéométrique Hyp (N, n, p) est
Np
Nq
N
P r (M = m) =
×
÷
m
n−m
n
Proposition 4.6.3. Formules : E (X) = np et var (X) = n p q
N −n
.
N −1
Exercise 4.6.4. Déterminer les moments, c’est à dire les espérances E (X n ) pour n ∈ N.
En déduire les moments centrés, c’est à dire les espérances E ((X − E (X))n ).
Proposition 4.6.5. Si l’on fait N → ∞ dans Hyp (N, n, p), on obtient la loi binomiale
Bin (n, p).
4.7
Exercices
Exercise 4.7.1. Soit X la variable définie par la distribution de probabilité suivante :
1 2 3 4 5 6
X
. Déterminer α. Calculer E (X), var (X) et σX . En déP r (X) .1 α .2 .1 .1 .1
duire les paramètres de dispersion des variables Y1 = 2 X, Y2 = − 12 X et Y3 = X − 3.
Exercise 4.7.2. On joue quatre fois de suite à pile ou face. Quelle est la distribution
du nombre K de fois où l’on a obtenu pile ? Dessin et paramètres de dispersion. Mêmes
questions pour n = 12 et n = 20 (ne pas hésiter à utiliser un ordinateur...).
Exercise 4.7.3. Une jardinerie garantit à tout acheteur de plants de tomates que 90% des
plants se développeront correctement après repiquage. Quelle est la probabilité d’obtenir
au moins 18 pieds de tomate après un achat de 20 plants ? Quelle est la probabilité de
perdre au plus 50 plants après un achat de 200 plants ?
Exercise 4.7.4. Concours ENAC. L’épreuve de mathématiques du concours ENAC consiste
en un QCM de 50 questions. Pour chacune, 4 réponses sont proposées. Chaque candidat
choisit 40 questions et indique la réponse qui lui parait convenir. Une réponse exacte est
valorisée de 2 points, chaque réponse inexacte est pénalisée de 1 point.
On considère le sous-ensemble Ω1 des candidats qui répondent de façon aléatoire (uniforme). Quels sont les paramètres de dispersion E (X) et σX des notes obtenues ?
On considère le sous-ensemble Ω2 des candidats qui choisissent uniformément les questions et y répondent avec un taux de succès de 80%. Donner les paramètres de dispersion
correspondants.
On considère enfin le sous-ensemble de Ω2 constitué de candidats qui savent en outre
identifier les 20 questions les plus faciles, et y répondent alors avec un taux de 100%.
Donner les paramètres de dispersion correspondants.
28
4. Variables aléatoires discrètes
Chapitre 5
Variables à densité
5.1
Principes généraux
Moyennant diverses précautions oratoires, on a :
R +∞
Definition 5.1.1.RSi f : R ,→ R est continue par morceaux, positive et vérifie −∞ f (t) dt =
1, alors P r (A) = A f (t) dt définit une v.a. continue. La fonction f est la densité de probabilité de cette variable.
Notation 5.1.2. df = density function. Ne pas confondre avec df ....
Remark 5.1.3. Caveat : la quantité f (x) n’est pas la probabilité de X = x. En effet,
cette probabilité est nulle (c’est précisément la condition pour qu’il y ait une densité de
probabilité).
Proposition 5.1.4. Propriété des aires. Le graphe de f (x) généralise la notion d’histogramme. Dans les deux cas, les probabilités sont représentées par des surfaces. En particulier
P r (X ∈ [x, x + dx]) = f (x) dx
Definition 5.1.5. Pour une variable à densité X, on définit
Z +∞
.
E (X) =
t f (t) dt
−∞
.
var (X) =
Z
+∞
(t − E (X))2 f (t) dt = E X 2 − (E (X))2
−∞
Proposition 5.1.6. Comme pour les variables discrètes, on a :
E (a X + b) = a E (X) + b
var (a X + b) = a2 var (X)
5.2
Loi uniforme
Definition 5.2.1. Loi uniforme sur [a, b] : f (x) =
29
1
b−a
si a ≤ x ≤ b et f (x) = 0 sinon.
30
5. Variables à densité
Proposition 5.2.2. Formules
E (X) =
1
1
(a + b) ; var (X) =
(b − a)2
2
12
Exercise 5.2.3. Soient X et Y deux variables uniformément distribuées sur [1, 3] et sur
.
[2, 5]. Quelle est la loi de Z = X + Y ?
Exercise 5.2.4. (pour l’exercice suivant) On regroupe plusieurs populations finies Ωj ,
ayant des effectifs différents nj . Rappeler comment obtenir la moyenne et la variance de
la population totale à partir des paramètres des Ωj .
Exercise 5.2.5. On considère une variable à densité X prenant ses valeurs dans l’intervalle [a, b]. Pour un n entier donné, on pose ∆x = b−a
et, pour 0 ≤ k ≤ n, xk = a + k ∆x
n
ainsi que, pour 1 ≤ k ≤ n, yk = 21 (xk−1 + xk ). On définit une variable aléatoire discrète
Y en posant P r (yk ) = P r (X < xk ) − P r (X < xk−1 ). Montrer que l’on a E (X) ' E (Y )
et var (X) ' var (Y ) + α ∆x2 avec α constante à déterminer.
Exercise 5.2.6. On considère deux variables aléatoires indépendantes X et Y , toutes
deux distribuées selon la même loi uniforme sur [0, 1]. Déterminer la loi de la variable
Z =X +Y.
5.3
Variables positives
Definition 5.3.1. Le coefficient de variation d’une variable positive x est défini par :
p
var (x)
. σ
Vc = =
µ
E (x)
Remark. Il est clair que la notion même de coefficient de variation devient absurde si l’on
ne suppose pas que la variable est positive. Lorsque cette qantité est bien définie, elle
possède l’avantage d’être sans dimension, et de permettre une comparaison standardisée
entre deux variables.
Definition 5.3.2. On appelle variable observable X associée à une variable positive x la
nouvelle variable obtenue en séléctionnant les individus proportionnellement à la valeur
de x. Les paramètres associés à la variable x sont appelés paramètres "en nombre" (ou
individuels) et ceux associés à la variable X paramètres "en poids".
Remark. Considérons une population Ω dont les individus i présentent un caractère positif
désigné par ξ (i). La fonction ξ est donc une application Ω ,→ R+ . Lorsque l’on cherche à
déterminer la loi du caractère ξ, il y a deux façons de sélectionner les individus composant
l’échantillon d’étude. On peut en effet utiliser comme référence une loi uniforme sur les
individus ou bien une loi uniforme sur les valeurs. Le premier choix conduit à la variable
x, le deuxième à la variable X.
Exercise 5.3.3. On considère un processus d’attente, par exemple l’attente à un passage
à niveau. Le temps d’attente moyen lorsque l’on voit se baisser la barrière n’est pas le
même que le temps d’attente moyen lorsque la barrière est déjà baissée lorsque l’on arrive.
Calculer ces deux moyennes lorsque la loi "en nombre" est déterministe, uniforme sur un
intervalle, binomiale, exponentielle.
5.4. Formules de convolutions
31
Exercise 5.3.4. On se demande quel est le volume moyen d’une particule dans un mélange
de particules. Décrire des protocoles expérimentaux associés aux variables x et X. De
même pour la masse moyenne des molécules d’un polymère.
Proposition 5.3.5. Lorsque les chances de la variable x sont données par f (x), les
chances de X sont données par x f (x). Lorsque f est la densité de probabilité de x, la
x
f (x) et l’on a :
densité de probabilité de X est E(x)
E (X) =
E (x2 )
= E (x) × 1 + Vc2
E (x)
(5.1)
Exercise 5.3.6. Les polyméristes ont l’habitude de considérer le rapport E (X) /E (x)
(indice de polydispersité). Lorsque cet indice vaut 2, quelle est la valeur de σ ?
5.4
Formules de convolutions
Theorem 5.4.1. Soient t, z deux variables indépendantes et φ une transformation telle
que les variables x = φ (t, z) , y = z soient indépendantes et admettent f et g comme pdf
sur R. Alors la densité de probabilité de t est :
Z
pdf (t) =
f (φ (t, z)) |φ0t (t, z)| g (z) dz
z∈R
Preuve. On passe aux cdf et on applique Fubini :
ZZ
Z
Z
f (x) g (y) dx dy =
f (φ (t, z)) g (z) × Jac dz dt
{(x, y)|t<T }
t<T
z∈R
Proposition 5.4.2. La loi de la somme de deux variables indépendantes est donnée par
l’opérateur de convolution :
Z
f (t − z) g (z) dz
(f ? g) (t) =
R
Exercise 5.4.3. Déterminer la loi de la somme de x uniforme sur [1, 4] et de y uniforme
sur [1, 5].
Proposition 5.4.4. Si f et g sont les lois des variables indépendantes x et y, la loi du
quotient t = x/y est :
Z
z f (t z) g (z) dz
R
5.5
Loi gamma
Proposition 5.5.1. Pour n entier positif, on a :
Z ∞
xn exp (−x) dx = n!
0
32
5. Variables à densité
Definition 5.5.2. La fonction Gamma d’Euler est définie par
Z ∞
xs−1 exp (−x) dx
Γ (s) =
0
Definition 5.5.3. Une variable aléatoire de loi Gamma réduite et de paramètre a se
définit par :
1
pdf (x) =
xa−1 exp (−x)
Γ (a)
Proposition 5.5.4. Les paramètres de dispersion d’une variable gamma réduite sont
égaux au paramètre de la loi : E (x) = a, var (x) = a.
Proposition 5.5.5. La somme de deux variables gamma réduites indépendantes, ayant
pour paramètres a1 et a2 est une variable gamma, de paramètre a1 + a2 .
Preuve. Comme ces variables sont positives, la formule de convolution donne (en posant
z = t u) ;
Z z=t
pdf (t) = Cte ×
(t − z)a−1 exp (−t + z) z b−1 exp (−z) dz
z=0
Z 1
a−1 b−1
a−1+b−1+1
(1 − u) u du
= exp (−t) t
× Cte
0
et la conclusion suit. Au passage, on obtient la valeur de
R1
0
(1 − u)a−1 ub−1 du.
Definition 5.5.6. On appelle variable gamma de paramètres a et b une variable x telle
que x/b suit une loi gamma réduite de paramètre a.
Chapitre 6
Les lois limites de la loi binomiale
6.1
Les deux types de clientelle
Il y a deux façons essentiellement différentes de passer à la limite dans la loi binomiale. Illustrons cela par l’exemple d’une clientelle, comme celle d’une marina. Les clients
peuvent se décomposer en deux classes : les clients réguliers et les clients de passage.
Les "clients de passage" sont des clients qui, individuellement, n’avaient guère de
raison de passer par là (plutôt que de passer ailleurs) : leur probabilité individuelle de
présence est très faible. Mais, ayant un bateau, il faut bien qu’ils bougent de temps en
temps. Comme le nombre total de plaisanciers est très grand, le nombre k des clients qui
sont "de passage", ici et maintenant, oscille autour de la valeur N p, qui prend une valeur
finie non nulle.
Les "clients réguliers", au contraire, ont à la fois une probabilité non négligeable d’être
présents (c’est leur port d’attache) et une probabilité non négligeable d’être partis (une
des raisons d’avoir un bateau étant de naviguer). Faire tendre n vers l’infini dans ces
conditions revient à faire tendre σ 2 = n p q vers l’infini. On a alors k → ∞. En pareil
cas, ce n’est plus la loi de k qui est intéressante, mais la loi de la variable réduite :
z = (k − n p) /σ.
6.2
La loi de Poisson, loi limite pour n p → λ ; n → ∞
Proposition 6.2.1. La limite de la loi binomiale pour n → ∞ ;
Poisson :
λk
exp (−λ)
P r (K = k) =
k!
Preuve. Supposons donc que n → ∞ ;
n p → λ est la loi de
n p → λ (clientelle de passage). On a :
n!
pk (1 − p)n−k
k! (n − k)!
1
(n) (n − 1) · · · (n − k + 1)
n p n−k
k
=
×
(n p) 1 −
k!
(n) (n) · · · (n)
n
P r (K = k) =
Pour k fixé et n → ∞, la fraction tend vers 1. Pour n p → λ, le troisième facteur tend
vers λk . Enfin, le dernier facteur tend vers exp (−λ).
Exercise 6.2.2. Vérifier ΣP r (k) = 1, E (K) = lim (n p) = λ et var (K) = lim (n p q) = λ.
33
34
6. Les lois limites de la loi binomiale
6.3
La loi de Gauss, loi binomiale limite pour σ → ∞
Remark 6.3.1. Lorsque l’on trace les histogrammes de la variable réduite pour diverses
lois binomiales, on constate que les graphes obtenus présentent la même allure de "courbe
en cloche" lorsque le produit σ 2 = n p (1 − p) est assez grand.
0.39
0.28
20
k
.1k .9(20−k)
0
0
2
–2
20
0
2
Fig.6.1 – Un exemple avec p petit.
0.15
80
k
0.39
0
.1k .9(80−k)
0
8
–2
80
0
2
Fig.6.2 – Sans changer p, mais avec n plus grand.
0.39
0.24
10
k
.5k .5(10−k)
0
0
5
10
–2
Fig.6.3 – Convergence plus rapide lorsque p = 0.5.
0
2
6.4. Propriétés élémentaires
35
Remark 6.3.2. Pour σ fixé, le passage à la limite est d’autant meilleur que p est proche
de 0.5 (symétrie préalable).
Proposition 6.3.3. Règle des sigmas :
P r (X ∈ [µ ± σ])
P r (X ∈ [µ ± 2σ])
P r (X ∈ [µ ± 2.5σ])
P r (X ∈ [µ ± 3σ])
=
=
=
=
0.68 ≈ 2/3
0.95
0.99
0.997
Les Tab. 6.1 et Tab. 6.2 donnent les fréquences cumulatives de la loi de Gauss (loi
normale réduite).
−.9
−2 .002
−1 .029
−0 .184
0
1
2
3
.0
.500
.841
.977
.999
−.8
.003
.036
.212
.1
.540
.864
.982
.999
−.7
.003
.045
.242
−.6
.005
.055
.274
−.5
.006
.067
.309
−.4
.008
.081
.345
−.3
.011
.097
.382
−.2
.014
.115
.421
−.1
.018
.136
.460
−.0
.023
.159
.500
.2
.3
.4
.5
.6
.7
.8
.9
.579 .618 .655 .691 .726 .758 .788 .816
.885 .903 .919 .933 .945 .955 .964 .971
.986 .989 .992 .994 .995 .997 .997 .998
.999 1
1
1
1
1
1
1
Tab.6.1 – Loi normale (cumulative) : table courte
6.4
Propriétés élémentaires
Theorem 6.4.1. La loi normale réduite (ou loi de Gauss) est caractérisée par la densité :
1 2
1
f (z) = √ exp − z
2
2π
Preuve. La preuve de ce théorème se trouve Section A.3.
Remark 6.4.2. Il est indispensable de repérer comment
obtenir à la calculette les valeurs
Rz
de f (z) et de la fonction de répartition F (z) = −∞ f (t) dt .
Exercise 6.4.3. Déterminer P r (X < 0), P r (2 < X < 3) et P r (|X| < 2).
Exercise 6.4.4. Déterminer x tel que P r (X < x) = 0.9625, puis P r (−x < X < x) =
0.9625, puis P r (0 < X < x) = 0.35, et enfin P r (−2 < X < x) = 0.50.
Remark 6.4.5. Par construction l’espérance de z est nulle, et sa variance vaut 1.
Definition
6.4.6. La
loi normale générale N orm (µ, σ) est définie par la densité f (x) =
2
x−µ
1
1
√
.
exp − 2 σ
σ 2π
R +∞
R +∞
On a donc −∞ f (t) dt = 1, E (X) = −∞ t f (t) dt = µ et var (X) = σ 2 .
Remark 6.4.7. La loi normale réduite est donc N orm (0, 1).
36
6. Les lois limites de la loi binomiale
0.
.1
.2
.3
.4
.5
.6
.7
.8
.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
0.
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
.9713
.9772
.9821
.9861
.9893
.9918
.9938
.9953
.9965
.9974
.9981
.9987
.9990
.9993
.01
.5040
.5438
.5832
.6217
.6591
.6950
.7291
.7611
.7910
.8186
.8438
.8665
.8869
.9049
.9207
.9345
.9463
.9564
.9649
.9719
.9778
.9826
.9864
.9896
.9920
.9940
.9955
.9966
.9975
.9982
.9987
.9991
.9993
.02
.5080
.5478
.5871
.6255
.6628
.6985
.7324
.7642
.7939
.8212
.8461
.8686
.8888
.9066
.9222
.9357
.9474
.9573
.9656
.9726
.9783
.9830
.9868
.9898
.9922
.9941
.9956
.9967
.9976
.9982
.9987
.9991
.9994
.03
.5120
.5517
.5910
.6293
.6664
.7019
.7357
.7673
.7967
.8238
.8485
.8708
.8907
.9082
.9236
.9370
.9484
.9582
.9664
.9732
.9788
.9834
.9871
.9901
.9925
.9943
.9957
.9968
.9977
.9983
.9988
.9991
.9994
.04
.5160
.5557
.5948
.6331
.6700
.7054
.7389
.7704
.7995
.8264
.8508
.8729
.8925
.9099
.9251
.9382
.9495
.9591
.9671
.9738
.9793
.9838
.9875
.9904
.9927
.9945
.9959
.9969
.9977
.9984
.9988
.9992
.9994
.05
.5199
.5596
.5987
.6368
.6736
.7088
.7422
.7734
.8023
.8289
.8531
.8749
.8944
.9115
.9265
.9394
.9505
.9599
.9678
.9744
.9798
.9842
.9878
.9906
.9929
.9946
.9960
.9970
.9978
.9984
.9989
.9992
.9994
.06
.5239
.5636
.6026
.6406
.6772
.7123
.7454
.7764
.8051
.8315
.8554
.8770
.8962
.9131
.9279
.9406
.9515
.9608
.9686
.9750
.9803
.9846
.9881
.9909
.9931
.9948
.9961
.9971
.9979
.9985
.9989
.9992
.9994
.07
.5279
.5675
.6064
.6443
.6808
.7157
.7486
.7794
.8078
.8340
.8577
.8790
.8980
.9147
.9292
.9418
.9525
.9616
.9693
.9756
.9808
.9850
.9884
.9911
.9932
.9949
.9962
.9972
.9979
.9985
.9989
.9992
.9995
.08
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.9761
.9812
.9854
.9887
.9913
.9934
.9951
.9963
.9973
.9980
.9986
.9990
.9993
.9995
Tab.6.2 – Loi normale (cumulative) : table longue
.09
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
.9767
.9817
.9857
.9890
.9916
.9936
.9952
.9964
.9974
.9981
.9986
.9990
.9993
.9995
6.4. Propriétés élémentaires
37
Exercise 6.4.8. Si les âges d’un groupe de personnes sont distribués suivant la loi normale
N orm (41, 8), quel est le pourcentage des membres de ce groupe ayant : (a) moins de 53
ans ; (b) au moins 35 ans ; (b) entre 25 et 49 ans ?
Exercise 6.4.9. On sait que la variable X suit une loi normale et que P r (X < 8) = 0.35
et P r (15 < X) = 0.16. Déterminer µ et σ.
Exercise 6.4.10. Les âges d’un groupe d’étudiants sont répartis suivant la loi N orm (22, 2).
Quel est l’âge moyen du tiers le plus jeune ?
√
Proposition 6.4.11. En pratique, on approxime Bin (n, p) par N orm n p, n p q lorsque
n p q > 9.
Proposition 6.4.12. Si X est une variable normale, Y = a X + b est aussi une variable
normale. On a donc a X + b = N orm (a µ + b, |a| σ).
Proposition 6.4.13. Une somme de variablesnormales indépendantes
est encore une
p
variable normale. On a donc X1 + X2 = N orm µ1 + µ2 , σ12 + σ22 .
Preuve. Avec les notations ci-dessus, la densité de probabilité de T = X1 + X2 vaut :
!
Z z=+∞
(t − z − µ1 )2 (z − µ2 )2
1
exp −
−
dz
2 π σ1 σ2 z=−∞
2σ1
2σ2
L’argument de l’exponentielle se réécrit en "z puis t" :
−
1
(t − z − µ1 )2 (z − µ2 )2
σ2 + σ2
(t − µ1 − µ2 )2
−
= − 1 2 22 (z − Z (t))2 −
2
2σ1
2σ2
2 σ1 σ2
2 (σ1 + σ22 )
où Z (t) ne dépend pas de z. Le deuxième terme donne un facteur exponentiel qui sort de
l’intégrale et qui est proportionnel à ce qu’il faut établir. Quant à l’intégrale sur ]−∞, +∞[
de l’exponentielle du premier terme, on voit qu’elle est constante par le changement de
variable τ = z − Z (t).
Exercise 6.4.14. Le fameux exercice des plaques de chocolat. Une presse façonne des
plaques de chocolat dont le poids X suit une loi normale d’espérance m et d’écart-type
σ = 3 (grammes). Le réglage de la presse permet de modifier m par pas de 0.1 grammes
sans affecter σ.
Les services du contrôle économique admettent que 2.5% du nombre des articles de cette
nature puissent peser moins que le poids net mentionné sur l’emballage.
(a) Déterminer m pour respecter la tolérance administrative lorsque le poids net marqué
est 250 grammes.
(b) On met en fabrication 100 000 plaques de chocolat qui seront vendues par lots de 2
plaques avec pour mention "poids net 500 grammes". Déterminer m ainsi que l’économie
réalisée.
Proposition 6.4.15. Règle des sigmas : Il y a
68% (≈ 2/3) de l’effectif dans [E (X) − σ , E (X) + σ],
95% de l’effectif dans [E (X) − 2σ , E (X) + 2σ],
99% de l’effectif dans [E (X) − 2.5σ , E (X) + 2.5σ]
99.7% de l’effectif dans [E (X) − 3σ , E (X) + 3σ].
38
6.5
6. Les lois limites de la loi binomiale
Théorème central limite
Theorem 6.5.1. Si X1 , · · · , Xn sont des variables indépendantes, de moyennes
E (X)j
. P
et de variances var (X)j , on sait que leur somme Yn a pour moyenne µn =
E (X)j et
P
2 .
2
pour variance σn =
var (X)j . Si de plus σn → ∞ lorsque n → ∞ alors la variable
Yn −µn
réduite Zn = σn tend vers la loi normale réduite N orm (1, 0).
Remark 6.5.2. Le théorème central limite donne un nouveau point de vue quant à la
convergence de la variable réduite d’une loi binomiale vers la loi de Gauss.
6.6
La loi lognormale
Definition 6.6.1. On appelle lognormale une variable positive dont le logarithme suit
.
une loi normale. Nous définissons les paramètres M, k de cette loi par par ln M = E (ln x)
.
et ln k = var (ln√
x). La Fig. 6.4 donne les densités de la variable x de paramètres
M = 1000, k = 2 et de la variable "en poids" associée. Les graduations horizontales
correspondent à une graduation en écart-types de la variable ln x.
0 172
1000
1810
3230
5830
Fig.6.4 – Loi lognormale avec M = 1000, k =
√
2.
Proposition 6.6.2. Lorsque la variable "en nombre" est lognormale avec les paramètres
M, k, la variable "en poids" est lognormale avec les paramètres k M, k.
Preuve. Si z est une variable de Gauss, la variable Z obtenue par la pondération exp z
est une variable normale ayant la même loi que z + 1.
Proposition 6.6.3. La densité d’une variable lognormale peut s’écrire :
1 ln2 (x/M )
p
exp −
2 ln (k)
x 2 π ln (k)
1
√
tandis que sa fonction de répartition est N orlaw ln M, ln k, ln x . En désignant par X
la variable "observable" associée, on a les résultats suivants :
z
E (z)
ln x
x
X
ln √
M
M k
M k 3/2
mode median
ln M
M/k
M
ln M
M
Mk
var (z)
Vc2
ln k
M k (k − 1) k − 1
M 2 k 3 (k − 1) k − 1
2
6.6. La loi lognormale
39
Preuve. La densité s’obtient par f (x) dx = norlaw (ln x) d(ln x). Un peu de calcul (chan2
gement de variable, etc.) conduit à E (xp ) = M p k p /2 . La médiane pour x est l’image de
la médiane pour ln x. Le mode s’obtient par dérivation.
Les résultats pour X viennent de Proposition 6.6.2. On peut constater que E (X)
vérifie Eq. 5.1.
Remark 6.6.4. Pour la loi lognormale, les variables "en nombre" et "en poids" ont le même
coefficient de variation.
Exercise 6.6.5. On considère un ensemble de particules en suspension dans un liquide.
On suppose que la répartition "en poids" des poids de ces particules suit une loi lognormale
de paramètres M, k. On suppose en outre que ces particules sont sphériques et ont une
densité constante. Que peut-on dire de la répartition "en diamètre" des diamètres de ces
particules (passer par l’intermédiaire des répartitions "en nombre").
40
6. Les lois limites de la loi binomiale
Annexe A
Compléments
A.1
Formules de Morgan
Hypothèse : on se limite aux ensembles A, B, · · · inclus dans un ensemble Ω fixé,
autrement dit, on suppose A, B, · · · ∈ P (Ω).
Definition A.1.1. La fonction caractéristique de l’ensemble A est la fonction χA : Ω ,→
{0, 1} définie par χA (x) = 1 lorsque x ∈ Ω et χA (x) = 0 lorsque x ∈
/ Ω (rappel : A ⊂ Ω).
Definition A.1.2. Pour un ensemble fini, on a Card (A) =
P
x∈A
χA (x).
Proposition A.1.3. Pour C = A ∩ B, on a χC = χA × χB puisque x ∈ C est défini par
x ∈ A et x ∈ B.
/ A },
Proposition A.1.4. Pour C = A, le complémentaire de A, c’est à dire {x ∈ Ω | x ∈
on a χC = 1 − χA .
Proposition A.1.5. Pour C = A ∪ B, on a χC = χA + χB − χA χB . En effet, la formule
χA + χB aurait pour effet de compter deux fois les éléments commune à A et à B : il
convient donc de soustraire les éléments communs.
Theorem A.1.6 (Morgan). Pour C = A ∪ B, on a donc
χC = 1 − χA∪B = 1 − (χA + χB − χA χB )
Qui se factorise en χC = (1 − χA ) (1 − χB ) = χA χB . Prouvant que A ∪ B = A ∩ B.
L’autre formule se démontre de même. On a donc :
A∪B =A∩B
;
A∩B =A∪B
(A.1)
Remark A.1.7. Critique : le problème de base en théorie des ensembles est d’être certain
que l’on n’est pas en train utiliser le résultat à démontrer au cours de la démonstration de
ce résultat. Or la notion de fonction nécessite celle d’ensemble et ... les ennuis commencent.
En bref, nous avons montré : "si la théorie des ensembles est cohérente, alors la formule
de Morgan s’applique".
Remark A.1.8. On notera la ressemblance entre les formules pour χ (la mesure de dénombrement) et les formules pour P r (.) (la mesure de probabilité).
41
42
A. Compléments
Fig.A.1 – Visualisation de la formule A ∪ B = A ∩ B.
A.2
Loi géométrique
Definition A.2.1. Loi géométrique : X = Geom (a) veut dire : X prend ses valeurs dans
N et P r (X = n) proportionnelle à an .
Proposition A.2.2. Formules :
1
a
1 n
a ; E (X) =
; var (X) =
P r (X = n) =
1−a
1−a
(1 − a)2
Exercise A.2.3. Tester numériquement ces formules pour a = 0.2. Les démonter dans le
cas général. Calculer les moments et les moments centrés correspondants.
A.3
Passage de la loi binomiale à la loi de Gauss
1. Notations. Soit J une variable binomiale de paramètres n (le nombre total d’essais)
et p (la probabilité de succès à une épreuve élémentaire). On pose q = 1 − p et
k = n − j. On a P r (J = j) = nk pj q k .
.
2. Variable réduite. On sait que E (J) = n p et σ 2 = var (J) = n p q. La variable
p
.
réduite X associée à J est X = (J − E (J)) ÷ σX , soit x = j−n
σ
1 2
3. Changement de variable. On peut vérifier que j = q σ + x σ et k = p1 σ 2 −
x σ. On sait que la probabilité se représente par une surface (bâton d’un histogramme, tranche d’Archimède dans un graphe). Pour n fini fixé, on a évidemment
P r (J = j) = P r (X = x). La hauteur des rectangles dans l’histogramme en j vaut
1
P r (J = j) et la hauteur des rectangles de l’histogramme en x (que nous allons
∆j
1
noter f (x)) vaut ∆x
P r (X = x). Comme ∆j = 1 et ∆x = σ1 ∆j, on part donc de
f (x) = σ
n! j k
pq
j! k!
A.3. Passage de la loi binomiale à la loi de Gauss
43
4. Formule de Stirling (version faible). Posons un = ln (n! ÷ nn ) et vn = un+1 − un .
Les techniques usuelles de développement limité conduisent à ,
vn = n ln n − n ln (n + 1) = −1 +
1
+ O 1/n2
2n
√
On en conclut que n n! ∼ ne , c’est à dire le quotient de n par la moyenne géométrique des n premiers nombres entiers tend vers e = 2.718 · · · .
√
5. Formule de Stirling (version forte). Posons sn = (n/e)n n, un = ln (n! ÷ sn ) et
vn = un+1 − un . Les techniques usuelles de développement limité conduisent à
1
1
1
3
ln 1 +
=−
vn = 1 − n +
+
O
1/n
2
n
12 n2
En sommant des équivalents, un admet une limite finie et il existe une constante
α telle que :
n! ∼ α n(n+1/2) exp (−n)
(A.2)
6. Dans ce qui suit, on fixe x et on fait augmenter σ vers +∞. On a donc successivement :
1 √ √ √ n+1/2 j k −(j+1/2) −(k+1/2)
f (x) ∼
p q nn
p q j
k
α
j+1/2
1 n q k+1/2 n p
f (x) ∼
α k
j
7. Développement limité. En posant Aj = j + 12 ln njp et Bk = k + 12 ln nkq ,
on obtient ln (α f (x)) = −Aj − Bk . En substituant j +
j
np
jq
npq
=
=
donnent :
σ 2 +x q σ
σ2
= 1+
xq
,
σ
1
2
=
1 2
σ
q
+ xσ +
1
2
et
les techniques usuelles de développement limité
Aj = −σ x − 21 x2 q + − 12 x q + 61 x3 q 2 σ1 + O (1/σ 2 )
Bk = +σ x − 12 x2 p + + 21 x p − 61 x3 p2 σ1 + O (1/σ 2 )
8. En combinant et en passant aux exponentielles, on a donc :
2
x
1
1
1
2
2
exp
x 3 − x (p − q) + O 1/σ
f (x) = exp −
α
2
6
σ
2
montrant la convergence f (x) → α1 exp − x2 .
9. Enfin, la constante α est déterminée par le fait que la probabilité totale est constante...
et vaut donc 1. Pour déterminer la valeur de l’intégrale de Gauss, i.e. :
Z ∞
1 2
G=
exp − x dx
2
−∞
on en calcule le carré. Il vient
Z
Z
ZZ
1 2
1 2
1 2
1 2
2
G =
exp − x dx× exp − y
dy =
exp − x exp − y
dx dy
2
2
2
2
R
R
plan
Passant en polaire, on obtient
ZZ
Z ∞
1 2
2
G =
exp − ρ ρ dρ dθ = 2 π
exp (−u) du = 2 π
2
0
plan
44
A. Compléments
√
10. On en déduit que la constante dans la formule de Stirling vaut α = 1/ 2 π. La
valeur limite de la densité de probabilité de la variable réduite est donc donnée
par :
2
1
x
gauss (x) = √
exp −
2
2π
A.4
Loi normale
Definition A.4.1. Définition : loi de Gauss. La loi de Gauss est définie par la densité :
1
1 2
(A.3)
Gauss = N orm (0, 1)
:
f (z) = √ exp − z
2
2π
tandis que la loi normale “générale” est définie par la densité
N orm (µ, σ)
:
1
1
f (x) = √ exp −
2
σ 2π
x−µ
σ
2 !
(A.4)
Proposition A.4.2. L’histogramme de la loi normale est la “courbe en cloche” bien
connue de la Fig.A.2. Insistons sur le fait que P r (Z = z0 ) est nulle, tandis que P r (Z ∈ [a, b]) =
Rb
f (t) dt = F (b) − F (a) : la probabilité correspond à la surface sous la courbe (et non
a
à la hauteur).
0.4
–3 a
b
3
Fig.A.2 – La courbe en cloche.
Proposition A.4.3. Résultat. Pour une variable normale, on a E (x) = µ et var (x) = σ 2 .
La variable de Gauss z est donc la variable réduite associée à la variable normale x.
Exercise A.4.4. Que valent P r (Z < 0), P r (2 < Z < 3), P r (|Z| < 1.5), P r (Z < −2 ou 2 < Z)
?
Exercise A.4.5. Utiliser les tables de la fonction de distribution de la variable normale
réduite pour déterminer z tel que P r (Z < z) = 0.9625, puis P r (−z < Z < z) = 0.9625
puis P r (0 < Z < z) = 0.35 et enfin P r (−2 < Z < z) = 0.50.
Remark A.4.6. règle des sigmas. On a les approximations suivantes : P r (|Z| < 1) ≈
68% ≈ 32 , P r (|Z| < 2) ≈ 95%, P r (|Z| < 2.5) ≈ 99% et P r (|Z| < 3) ≈ 0.997.
Annexe B
Tableau de contingence
B.1
Distribution bivariée, distributions "à la marge"
Definition B.1.1. On appelle "tableau de contingence" une certaine façon de conduire
les calculs de régression affine pour une distribution groupée, i.e. une distribution où les
données de chaque sorte (les x et les y) ont été regroupées en classes.
1. Nous allons suivre l’exemple donné par le tableau ci-dessous :
↓x y→
1
2
3
]0, 2] ]2, 4] ]4, 6]
4
5
2
8
7
3
2
2
1
(a) Le caractère x est mesuré par des valeurs isolées (caractère discret), les y sont
mesurés par des intervalles (caractère continu, discrétisé pour les besoins de la
mesure, ou bien par raison de simplification du recensement)
(b) Nous indexons les x par la lettre j et ici j ∈ {1, 2, 3}. Nous indexons les y (plus
précisément : les centres de classes) par la lettre k et ici k ∈ {1, 2, 3}. Ainsi
y2 = 3 (il serait plus correct d’écrire ye2 = 3).
(c) L’effectif total se note N (ici N = 34) et l’effectif de chaque case se note njk .
Ainsi n1;3 = 2 veut dire que le recensement a trouvé, dans la population Ω, 2
individus tels que x = 1 et 4 < y ≤ 6.
2. Les deux distributions marginales s’obtiennent en augmentant le tableau d’une
ligne et d’une colonne.
↓x y→
1
2
3
n∗k
]0, 2] ]2, 4] ]4, 6]
4
5
2
8
7
3
2
2
1
14
14
6
45
nj∗
11
18
5
34
46
B.2
B. Tableau de contingence
Méthode de calcul
Algorithm B.2.1. Calcul effectif. Dans le cas d’une distribution groupée, il suffit d’ajouter quelques lignes et colonnes au tableau de distribution. La redondance de certains calculs
P est volontaire (cela permet de vérifier en cours de route). On remarquera
P que la ligne
de vérification du calcul de j k xj njk , mais
j xj njk n’est pas seulement un élément P
un élément indispensable pour le calcul de j k xj yk njk .
Example B.2.2. : Dans l’exemple ci-dessus, il vient :
↓x y→
1
2
3
n∗k
Pyk n∗k
j xj njk
P
yk j xj njk
]0, 2] ]2, 4] ]4, 6]
4
5
2
8
7
3
2
2
1
14
14
6
14
42
30
26
25
11
26
75
55
nj∗
11
18
5
34
xj nj∗
11
36
15
P
k
yk njk
29
44
13
xj
P
yk njk
29
88
39
k
86
62
156
Example B.2.3. Et l’on obtient : moy (x) = 62/34 ≈ 1.82,moy (x2 ) = (12 × 11 + 22 × 18 + 32 × 5)÷
2
− 62
≈ 0.44.
34 = 128/34 et donc var (x) = 128
34
34
Et de même moy (y) = 86/34 ≈ 2.53, moy (y 2 ) = (12 × 14 + 32 × 14 + 52 × 6) ÷ 34 =
86 2
290/34 et var (y) = 290
−
≈ 2.13.
34
34
86
cov
− 62
≈ −0.024. De là α = var(x)
≈ −0.055 et
Enfin moy (x y) = 156/34, d’où cov 156
34
34 34
la droite de régression est yprev ≈ 2.13 − 0.055 (x − 1.82).
Annexe C
Deux lois utiles pour les processus
d’attente
C.1
Loi de Poisson
Definition C.1.1. Loi de Poisson. X = P oiss (m) est P r (K = k) proportionnel à
mk
.
k!
Proposition C.1.2. Formules :
P r (K = k) =
mk
exp (−m) ; E (K) = m ; var (K) = m
k!
Exercise C.1.3. Tester numériquement ces formules pour m = 2. Les démonter dans le
cas général. Calculer les moments et les moments centrés correspondants.
Proposition C.1.4. Si l’on a n p = m constant et n → ∞ dans la loi binomiale, la limite
est la loi de Poisson.
Proposition C.1.5. Règle pratique : on approxime Bin (n, p) par P oiss (n p) lorsque
n ≥ 30 et p ≤ 0.1.
0.18
0.3
0
0
0
5
10
0
5
10
15
Fig.C.1 – Loi de Poisson m = 1 et m = 5.
Exercise C.1.6. Quelle est la loi de la somme de deux variables de Poisson indépendantes
?
47
48
C.2
C. Deux lois utiles pour les processus d’attente
Loi exponentielle
Definition C.2.1. Loi exponentielle : P r (x ≤ X ≤ x + dx) ∝ exp (−λx) dx.
Proposition C.2.2. Formules
f (x) = λ exp (−λx) ; E (X) =
1
1
; var (X) = 2
λ
λ
Exercise C.2.3. Retrouver les résultats énoncés Proposition C.2.2.
Exercise C.2.4. Déterminer les quartiles d’une loi exponentielle, c’est à dire les valeurs
correspondant à F (x) = 0.25, 0.5, 0.75.
C.3
Inter-arrivées exponentielles
Exercise C.3.1. Des clients arrivent un par un dans une file d’attente. On appelle A (n)
le temps qui sépare les arrivées des clients n et n + 1. On suppose que les A (n) sont des
variables indépendantes, toutes distribuées selon la même loi exponentielle de paramètre
λ. Montrer que la loi du nombre K de clients arrivant par unité de temps est une loi de
Poisson. En quoi le produit E (A) × E (K) est-il remarquable ?
Exercise C.3.2. Les autobus en bas de chez vous passent de façon aléatoire, les temps de
passage entre deux bus étant des variables de Poisson i.i.d. (indépendantes et identiquement distribuées) de paramètre λ. Vous descendez à l’arrêt de bus de façon aléatoire, avec
une probabilité uniforme. Quelle est la distribution de votre temps d’attente ? Calculer en
particulier la valeur moyenne de l’attente.
Bibliographie
Natrella M. Handbook of statistical methods. In C. Croarkin and P. Tobias (eds.), 2006
nist/sematech e-Handbook (NIST), revised 2006 ed. (1963). http://www.itl.nist.
gov/div898/handbook/. 1.3.2
49
Téléchargement