Statistiques pour l’ingénieur Pierre L. Douillet 14 décembre 2016 Le module stats a été enseigné durant les années 2001-2010 tant en promotion A1 qu’en promotion E1. Ce module a été conçu comme un cours de stats-probas plutôt que comme traité de probas-stats. Un cours est destiné à des étudiants qui abordent le domaine, et le principe d’ordonnancement est alors d’aller du facile vers le difficile. Un traité est destiné à d’anciens étudiants, qui veulent réorganiser les connaissances acquises et en vérifier la cohérence interne. Le principe d’ordonnancement est alors d’aller des fondements vers les conséquences. Il se trouve que les fondements sont toujours plus difficiles que le reste. Voila pourquoi ce module, destiné à une première présentation du domaine stats-probas, suit un axe PascalBayes et non un axe Fehler-Kolmogorov. Cette présentation revient grosso-modo à suivre l’ordre historique de développement du domaine. Comme l’on sait, la réalité d’un enseignement est pilotée par les évaluations. Dans le but de coller au mieux aux réalités industrielles, l’usage des documents personnels, en particulier des notes de cours, a toujours été autorisée (et en fait encouragée) pendant les évaluations. Pour les trois années 2001-2004, l’évaluation s’est faite par un devoir surveillé avec usage des calculatrices personnelles. Pour les années suivantes, l’évaluation s’est faite sous forme de "travaux surveillés" sur ordinateur, un étudiant par ordinateur, et un nombre suffisant de "surveillants" (l’enseignant et les chargés de TD). Durant les trois années 2004-07, le logiciel utilisé pour les TD et les évaluations était Maple, avec une feuille de calcul issue des TD. Le lien http://www.douillet.info/ ~douillet/mathapp/stats/stats18.mws en donne une version Maple 18.00. Durant les années 2007-10, le logiciel utilisé pour les TD et les évaluations était Scilab, avec une feuille de calcul issue des TD: stats.sce. En 2005-2007, la taille de la promotion E1 a nécessité deux sessions successives, avec des valeurs numériques différentes. En 2007-10, il y a eu trois sessions d’affilée avec, ici encore, des énoncés légèrement différents, chacun d’eux étant protégé par un mot de passe donné en début d’évaluation. Comme on l’imagine, tout cela a supposé à la fois un parc informatique conséquent...et la mobilisation des personnels du centre informatique. Qu’ils soient à nouveau remerciés pour leur compétence et leur engagement. Table des matières Table des Matières 3 Liste des Figures 5 1 Distributions statistiques univariées 1.1 Généralités sur les statistiques . . . 1.2 Histogramme . . . . . . . . . . . . 1.3 Quelques commandes Scilab . . . . 1.4 Paramètres de dispersion . . . . . . 1.5 Souvenirs, souvenirs . . . . . . . . . 1.6 Moyenne . . . . . . . . . . . . . . 1.7 Variance . . . . . . . . . . . . . . . 1.8 Exemples . . . . . . . . . . . . . . . . . . . . . . 2 Distributions bivariées 2.1 Description du problème . . . . . . . 2.2 Indépendance complète . . . . . . . . 2.3 Droite de régression . . . . . . . . . . 2.4 Indépendance linéaire . . . . . . . . . 2.5 Exercices sur le web . . . . . . . . . . 2.6 Un exemple (DO) . . . . . . . . . . . 2.7 Régression affine (données groupées) 3 Probabilités 3.1 Probabilités . . . . . . . . . . . . 3.2 Probabilités conditionnelles . . . 3.3 Variables aléatoires . . . . . . . . 3.4 Dans le cas des variables discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . infinies . 4 Variables aléatoires discrètes 4.1 Loi uniforme sur {1, 2, · · · , m}. . . 4.2 Loi de Bernoulli. . . . . . . . . . . 4.3 Somme de variables indépendantes 4.4 Séries génératrices . . . . . . . . . . 4.5 Loi binomiale . . . . . . . . . . . . 4.6 Loi hypergéométrique . . . . . . . . 4.7 Exercices . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 9 9 9 10 11 12 . . . . . . . 15 15 16 17 17 18 18 19 . . . . 21 21 22 23 24 . . . . . . . 25 25 25 25 26 26 27 27 4 TABLE DES MATIÈRES 5 Variables à densité 5.1 Principes généraux . . . 5.2 Loi uniforme . . . . . . . 5.3 Variables positives . . . 5.4 Formules de convolutions 5.5 Loi gamma . . . . . . . 6 Les 6.1 6.2 6.3 6.4 6.5 6.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lois limites de la loi binomiale Les deux types de clientelle . . . . . . . . . . . . . La loi de Poisson, loi limite pour n p → λ ; n → ∞ La loi de Gauss, loi binomiale limite pour σ → ∞ . Propriétés élémentaires . . . . . . . . . . . . . . . . Théorème central limite . . . . . . . . . . . . . . . La loi lognormale . . . . . . . . . . . . . . . . . . . A Compléments A.1 Formules de Morgan . . . A.2 Loi géométrique . . . . . . A.3 Passage de la loi binomiale A.4 Loi normale . . . . . . . . . . à . . . . . . . . . . . la loi de . . . . . . . . . . . . . Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 29 30 31 31 . . . . . . 33 33 33 34 35 38 38 . . . . 41 41 42 42 44 B Tableau de contingence 45 B.1 Distribution bivariée, distributions "à la marge" . . . . . . . . . . . . . . . 45 B.2 Méthode de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 C Deux lois utiles pour les processus C.1 Loi de Poisson . . . . . . . . . . . C.2 Loi exponentielle . . . . . . . . . C.3 Inter-arrivées exponentielles . . . References d’attente 47 . . . . . . . . . . . . . . . . . . . . . . . 47 . . . . . . . . . . . . . . . . . . . . . . . 48 . . . . . . . . . . . . . . . . . . . . . . . 48 49 Table des figures 1.1 1.2 1.3 1.4 Histogramme des temps (aire totale =1). . . . . Histogramme des temps (aire =1 par individu). Cumuls croissant et décroissant. . . . . . . . . . Représentation des paramètres de dispersion . . 2.1 2.2 Exemple de régression affine . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Distribution groupée : marguerites et bande de confiance. . . . . . . . . . . 20 6.1 6.2 6.3 6.4 Un exemple avec p petit. . . . . . . . . . Sans changer p, mais avec n plus grand. Convergence plus rapide lorsque p =√ 0.5. Loi lognormale avec M = 1000, k = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 . 9 . 10 . 12 . . . . 34 34 34 38 A.1 Visualisation de la formule A ∪ B = A ∩ B. . . . . . . . . . . . . . . . . . . 42 A.2 La courbe en cloche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 C.1 Loi de Poisson m = 1 et m = 5. . . . . . . . . . . . . . . . . . . . . . . . . 47 5 6 TABLE DES FIGURES Chapitre 1 Distributions statistiques univariées 1.1 Généralités sur les statistiques L’objectif des stats-probas est d’examiner les relations entre des connaissances portant sur un "gros ensemble" Ω (appelé population ou univers) et des connaissances portant sur un "petit sous-ensemble" ω (appelé échantillon). Les statistiques s’occupent d’ensembles finis (on appelle N la taille de Ω, et n la taille de ω), et partent de l’échantillon (qui a déjà été étudié) pour en tirer des conclusions sur la population globale. Les probabilités partent de propriétés supposées de la population globale, pour en tirer des conclusions concernant un échantillon à venir. Les probabilités s’autorisent en outre l’étude de populations infinies... et il convient alors de gérer les ennuis qui en résultent. Caractère statistique X, Y, Z qualitatif ou quantitatif et alors discret ou continu. On remarquera qu’une mesure (physique) consiste non pas en un nombre (cette table fait un mètre) mais en un intervalle, par exemple (pour une mesure en centimètres) 0.995 m < x < 1.005 m. Une mesure introduit quasi inévitablement une discrétisation. Univarié veut dire : on recense un seul caractère. 1.2 Histogramme Definition 1.2.1. Histogramme. On porte le caractère en abscisse et l’effectif en surface. Definition 1.2.2. DO (distribution observée). On reporte le nombre d’occurences de chaque valeur dans un tableau. Definition 1.2.3. DG (distribution groupée). On fractionne l’ensemble des valeurs en intervalles disjoints (classes). Si "on groupe trop", on perd toute information. Si on "ne groupe pas assez", l’information utile est noyée sous le bruit (les informations inutiles). Notation 1.2.4. Nous utiliserons xj pour les valeurs, [aj , bj [ pour les P classes, xej pour le représentant de la classe (souvent le milieu), nj pour les effectifs, N = nj pour l’effectif n total, fj = Nj pour les fréquences. Proposition 1.2.5. Les fréquences vérifient la relation : X ∀i : fi ≥ 0 ; fi = 1 i 7 (1.1) 8 1. Distributions statistiques univariées Remark 1.2.6. Il est préférable de choisir des séparations qui ne soient pas des valeurs atteintes, cela évite de discutailler sur la forme des intervalles. Maple 1.2.7. Une "liste statistique" comportant x individus dans l’intervalle [a, b[ et y individus valant c s’écrit : [Weight(a..b, x), Weight(c, y) ] Maple 1.2.8. Pour regrouper ensemble les valeurs exactement égales d’une liste statistique donnée, on utilise la commande tally. Pour découper en classes une liste statistique donnée, on commence par construire une liste d’intervalles lc puis on utilise la commande tallyinto(li, lc) ; Example 1.2.9. La Tab. 1.1 donne le relevé des temps nécessaires au piqûrage de carpettes dans un atelier de fabrication de tapis. On remarquera que le groupement des durées par intervalles de 3.5 minutes est un artifice destiné à produire 7 classes. Un groupement par intervalles de 3 minutes ferait apparaître 8 classes. L’histogramme associé est donné Fig. 1.1. durée (mn) 0. .. 3.5 3.5 .. 7.0 7.0 .. 10.5 10.5 .. 14.0 14.0 .. 17.5 17.5 .. 21.0 21.0 .. 24.5 effectif 1 9 37 59 40 11 3 Tab.1.1 – Distribution des temps de piqûrage. .10 .08 .06 .04 .02 5 10 15 20 25 Fig.1.1 – Histogramme des temps (aire totale =1). Maple 1.2.10. Par défaut, la commande histo(li) trace un histogramme en fréquences (aire totale =1). Pour obtenir un histogramme en effectifs (aire=1 pour un individu, cf Fig. 1.2), utiliser histo(li, area=count) ; 1.3. Quelques commandes Scilab 9 15 10 5 10 20 Fig.1.2 – Histogramme des temps (aire =1 par individu). 1.3 Quelques commandes Scilab Egalité 1==1 répond T et 1==2 répond F car il s’agit d’un test d’égalité. Nommage x=1==2 répond x=F : dans la boite nommée x on stocke la valeur de 1==2 c’est à dire F (affectation) Taille size(4) répond 1 1 car le nombre 4 est en fait une matrice de taille 1 × 1 Vecteurs il n’y a pas de vecteurs, mais des matrices filiformes (à deux dimensions) Matrices constructeur a=[1,2;3,4]. Accès "matriciel" et accès "vectoriel" (colonne de colonnes). Pas de produit sans concordance dimensionnelle. Fichiers mopen, mgetline, mclose Strings msscanf, sprintf Histo histplot Exercise 1.3.1. Examiner ce que donne 1/m lorsque la matrice m n’est pas carrée. Exercise 1.3.2. Lire le fichier nist-ceramic.txt, extrait de Natrella (1963). Récupérer la dernière colonne. En tracer l’histogramme. Mettre un titre. Exercise 1.3.3. Que donne curax=gca() ? Que donne curh=curax.children(1).children ? Comment obtenir des barres vertes entourées de bleu ? 1.4 Paramètres de dispersion Definition 1.4.1. Pour une distribution univariée, on se donne pour objectif de ne garder que deux nombres, l’un décrivant "le centre" de la distribution et l’autre son étendue. Ces deux nombres portent le nom collectif de "paramètres de dispersion". Comme pour un triangle, il y a plusieurs façons d’estimer quel est le centre... 1.5 Souvenirs, souvenirs Du temps où les calculs se faisaient à la main, nous sont parvenues diverses méthodes "sans calcul". Remark 1.5.1. Défaut irréparable : ces quantités ne sont pas associatives . Deuxième défaut : ces "méthodes sans calcul" nécessitent en fait une certaine dose de "calcul mental"... Definition 1.5.2. La médiane est la valeur associée à la place du milieu. Le nombre d’individus placés avant la valeur donnée est égal au nombre d’individus placés après. 10 1. Distributions statistiques univariées Definition 1.5.3. Les quartiles sont les valeurs associées aux places 1N/4, 2N/4 et 3N/4. Le 2-ème quartile est donc la médiane. L’intervalle interquartile est l’intervalle séparant le premier et le troisième quartile. Maple 1.5.4. Le quartile numéro k de la liste li s’obtient par la commande stats[describe, quartile[k]](li) ; Scilab 1.5.5. Les commandes Scilab sont median et quartile. Il est possible de les calculer sur la totalité d’une matrice, ou bien par lignes ou par colonnes. Proposition 1.5.6. La médiane est la valeur qui minimise l’écart absolu moyen. Ra R +∞ Preuve. On a E (|x − a|) = −∞ (a − x) f (x) dx + a (x − a) f (x) dx. La dérivée de Ra cette quantité est 2 −∞ f (x) dx − 1. Definition 1.5.7. Le mode est la valeur associée à la plus grande fréquence. Exercise 1.5.8. Calculer médiane, quartiles et mode associés à la distribution de la Fig. 1.1. Definition 1.5.9. Effectifs cumulés croissants : on place les points (x, P r (X ≤ x)). Effectifs cumulés décroissants : on place les points (x, P r (X ≥ x)). On obtient la Fig. 1.3. Remark 1.5.10. A nouveau : lorsque l’on regroupe les données dans des classes, il est intéressant de choisir pour bornes des valeurs qui ne sont pas atteintes, de façon à ne pas avoir à gérer ce qui se passe aux bornes. Exercise 1.5.11. Tracer les deux polygones des effectifs cumulés. Les utiliser pour retrouver la médiane. 160 120 80 40 0 9.84 15.2 24.5 Fig.1.3 – Cumuls croissant et décroissant. 1.6 Moyenne Definition 1.6.1. La moyenne d’une liste statistique s’obtient par somme pondérée (barycentre). On a donc X 1 X moy (x) = n i xi = f i xi N Dans la partie "probas" du domaine stats/probas, cette même quantité se note E (X) (espérance de la variable x). 1.7. Variance 11 Maple 1.6.2. La moyenne s’obtient par l’opérateur moy, que l’on définit par la commande : macro(moy=stats[describe, mean]) ; Exercise 1.6.3. Calculer la moyenne de la distribution ci-dessus. Proposition 1.6.4. L’espérance est un opérateur linéaire : moy (x + λ) = moy (x) + λ et moy (λ x) = λ moy (x) Exercise 1.6.5. Reprendre le calcul ci-dessus en utilisant un changement de variable. Definition 1.6.6. La quantité x − moy (x) s’appelle la variable centrée, ou encore l’écart à la moyenne. La quantité x − a s’appelle l’écart par rapport à la valeur a. Proposition 1.6.7. La moyenne des écarts à la moyenne est nulle. 1.7 Variance Proposition 1.7.1. Formule des "degrés de liberté". 4 X 1 2 1 (xi − a) = 4 a − (x1 + x2 + x3 + x4 ) + 4 2 2 2 1 3 1 1 + x4 − (x1 + x2 + x3 ) + x3 − (x1 + x2 ) + (x4 − x3 )2 4 3 3 2 2 2 Le rang d’une forme quadratique est le nombre de carrés de formes linéaires indépendantes nécessaires pour constituer la forme quadratique considérée. On voit que le choix a = moy (x) minimise cette expression, et fait passer le nombre de carrés à n − 1 au lieu de n. P Definition 1.7.2. Variance : on pose var (x) = N1 ni (xi − moy (x))2 . Maple 1.7.3. La variance s’obtient par l’opérateur var, que l’on définit par la commande : macro(var=stats[describe, variance]) ; Scilab 1.7.4. La commande Scilab mean donne la moyenne, et la commande Scilab variance ne donne pas la variance. Exercise 1.7.5. Calculer la variance de la distribution donnée en exemple. Proposition 1.7.6. La variance vérifie les formules : var (x + λ) = var (x) et var (λ x) = λ2 var (x) Exercise 1.7.7. Reprendre le calcul ci-dessus en utilisant un changement de variable. Proposition 1.7.8 (Koenig). Formule de calcul : var (x) = moy x2 − (moy (x))2 (1.2) Scilab 1.7.9. Lorsque M est une matrice contenant une donnée par case, la variance de ces données vaut : mean(M.*M)-mean(M)ˆ2 12 1. Distributions statistiques univariées 480 valeurs issues de ceramis−nist 0.006 0.005 0.004 0.003 0.002 0.001 0.000 300 350 400 450 500 550 600 650 700 750 800 850 Fig.1.4 – Représentation des paramètres de dispersion Remark 1.7.10. En attendant le cours sur les intervalles de confiance, il est convenu de représenter la dispersion d’une population en reportant une fois l’écart-type de part et d’autre de la moyenne (Fig. 1.4). Proposition 1.7.11 (Huygens). Pour toute constante a ∈ R : moy (x − a)2 = var (x) + (a − moy (x))2 (1.3) Exercise 1.7.12. Regroupement de données. On suppose connues les moyennes et les variances de deux populations disjointes Ω1 et Ω2 . Donner la moyenne et la variance de Ω = Ω1 ∪ Ω2 . Remark 1.7.13. Cet Exercice 1.7.12 est sorti à chacun des DS des années précédentes. p Definition 1.7.14. L’écart-type est défini par σ (x) = var (x). Est de même dimension que x. Le calcul de moyenne des carrés augmente le poids des grands écarts. Definition 1.7.15. La variable réduite associée à une variable x est définie par : ξ= x−x σ Cette quantité est une variable sans dimensions, concept essentiel pour pouvoir comparer des populations ayant des natures différentes. 1.8 Exemples Calculer les paramètres de dispersion et tracer les graphes : Exercise 1.8.1. La Tab. 1.2 donne la distribution des longueurs de 300 fibres à l’appareil WIRA. Exercise 1.8.2. Le tableau ci-dessous donne la liste des années de naissance de chacun des 32 membres d’un atelier. Entreprendre le traitement statistique de ces données. Recommencer en groupant les dates de naissance par classes de quatre années, en commençant par l’année 1940. Comparer les résultats. 1.8. Exemples 13 classes effectifs 4 .. 4.5 2 4.5 .. 5 2 5 .. 5.5 3 5.5 .. 6 6 6 .. 6.5 9 6.5 .. 7 15 7 .. 7.5 42 7.5 .. 8 47 classes effectifs 8 .. 8.5 42 8.5 .. 9 36 9 .. 9.5 49 9.5 .. 10 22 10 .. 10.5 16 10.5 .. 11 6 11 .. 11.5 2 11.5 .. 12 1 Tab.1.2 – Appareil WIRA 1948 1950 1944 1958 1946 1956 1953 1945 1946 1957 1941 1949 1945 1949 1956 1955 1953 1940 1942 1962 1953 1949 1956 1957 1951 1948 1963 1946 1950 1960 1954 1951 Exercise 1.8.3. Le tableau ci-dessous donne la répartition des salariés d’une certaine entreprise en fonction de leur salaire. Moyenne, écart-type ? salaire moins de 60 60 à 72 nombre 12 23 72 à 84 39 84 à 102 60 120 à 180 55 plus de 180 35 14 1. Distributions statistiques univariées Chapitre 2 Distributions bivariées 2.1 Description du problème Definition 2.1.1. Distribution bivariée. On recense deux caractères. Les mesures sont donc formées de couples (x, y). Remark 2.1.2. Les stats-proba recherchent d’éventuelles corrélations entre les valeurs prises par les grandeurs X et Y . Lorsqu’une telle corrélation existe, elle ne suffit pas à prouver une causalité. Par ailleurs, il peut exister une relation de causalité sans que telle ou telle technique de corrélation puisse rendre apparente cette causalité. Definition 2.1.3 (DO). La distribution observée est la série brute des données recensées. Scilab 2.1.4. Une DO représente par deux vecteurs X et Y de même taille, les valeurs étant appariées par rang. Definition 2.1.5 (DG). En regroupe les données de chaque sorte (les x et les y) en classes, on obtient une nouvelle distribution (elle dépend des groupements choisis). Et on présente le tout dans un tableau, le tableau de contingence (cf Tab. 2.1). ↓x y→ 10 20 30 40 [10, 20] [20, 30] [30, 40] [40, 50] 20 4 1 0 10 36 9 0 0 5 10 0 0 0 0 5 Tab.2.1 – Tableau de contingence : un exemple Remark 2.1.6. Ce qui concernait l’utilisation du tableau de contingence pour le calcul manuel a été relégué en Annexe B . Scilab 2.1.7. Une DG se représente par les vecteurs X et Y des centres de classes et par la matrice des fréquences. Le vecteur X donne les titres des lignes et est donc en colonne, tandis que le vecteur Y donne les titres des colonnes et est donc en ligne. Definition 2.1.8. Distribution marginale. S’appelle ainsi parce qu’on note les valeurs correspondantes dans les marges du tableau. Il s’agit de la distribution de x seul (en oubliant les valeurs P de y), ou dePla distribution de y seul. Les effectifs marginaux se notent : nj∗ = k nj k et n∗k = j nj k . Les fréquences marginales sont fj∗ = N1 nj∗ et f∗k = N1 n∗k . 15 16 2. Distributions bivariées Scilab 2.1.9. On obtient les effectifs marginaux par : fx=sum(fre,’c’), fy=sum(fre,’r’) fx est une matrice colonne et fy une matrice ligne. 2.2 Indépendance complète Caveat : ne pas confondre avec l’indépendance linéaire (qui sera définie par la suite). Definition 2.2.1. Distribution conditionnelle. La distribution d’une modalité conditionnée par une valeur effectivement atteinte par l’autre modalité est la distribution de la sous-population correspondante. Ainsi, la distribution en fréquence par de36y conditionnée 9 , , , 0 . x = 10 est [0.80, 0.16, 0.04, 0]. Celle conditionnée par x = 20 est 10 45 45 45 Definition 2.2.2. Indépendance complète. On dit que x et y sont complètement indépendantes lorsque toutes les distributions en fréquence de y conditionnées par les diverses valeurs de x sont égales entre elles. Exercise 2.2.3. Montrer que ces distributions en fréquence sont alors égales à la distribution marginale. Exercise 2.2.4. Montrer que l’indépendance complète est une relation symétrique en x et y. Exercise 2.2.5. Montrer que, s’il y a indépendance complète, on peut reconstituer le tableau de contingence à partir des distributions marginales. Theorem 2.2.6. Si les deux variables X et Y sont complètement indépendantes, on a alors var (X + Y ) = var (X) + var (Y ) Preuve. Soient pj = P r (X = xj ), qk = P r (Y = yk ) et Pjk = P r (X = xj et Y = yk ). On a P P x − y)2P = pj qkP(ξj +Pηk )2 var (X + Y ) = P Pjk (xP j + yk − P (2.1) qk + 2 pj ξj qk ηk + pj qk ηk2 = pj ξj2 = var (X) × 1 + 0 × 0 + 1 × var (Y ) en posant ξj = xj − x et ηk = yk − y (variables centrées). Definition 2.2.7. On appelle covariance de X et de Y la quantité : cov (X, Y ) = E ((x − moy (x)) (y − moy (y))) (2.2) Proposition 2.2.8. Dans tous les cas, var (X + Y ) = var (X) + var (Y ) + 2 cov (X, Y ) Preuve. Calcul direct ou ... polarisation d’une forme quadratique. Maple 2.2.9. .La covariance s’obtient par l’opérateur cov, que l’on définit par la commande : with(simul) ; macro(cov=xcov) ; Prendre garde au fait que le programme "stats[covariance]", fourni par Waterloo est faux (mal programmé). Cela se voit au fait que stats[covariance](li,li) ne redonne pas var(li). Scilab 2.2.10. La covariance s’obtient par covar(x,y,fre), tandis que les moyennes pondérées s’obtiennent par meanf(x,fx). 2.3. Droite de régression 2.3 17 Droite de régression Definition 2.3.1. Etant donné un ensemble de couples (x, y), on appelle droite de régression affine de la variable Y par rapport à la variable X la droite yprev = αx + β conduisant à la valeur minimale de l’expression : E (y − yprev )2 . Ce minimum s’appelle la variance réduite de Y . Theorem 2.3.2. La droite de régression (de y par rapport à x) est donnée par : yprev = E (y) + α (x − E (x)) , avec α = cov (x, y) var (x) (2.3) et le facteur de réduction de variance FRV par : . F RV = var (y) 1 = , var_reduite (y) 1 − r2 avec r = cov σx σy Remark 2.3.3. On remarquera la disparition de β qui n’a pas forcément de signification (lorsque x = 0 n’est pas réaliste). Preuve. Posons χ2 = E (y − yprev )2 . Si l’on considère, pour a fixé, la nouvelle variable Z = Y − a X on a χ2 = E (z − b)2 . La Proposition 1.7.11 (Huygens) nous donne χ2 = var (Z) + (E (Z) − b)2 . Pour une direction donnée, la meilleure droite est donc celle qui passe par le point moyen (E (X) , E (Y )). . . Considérons les variables centrées ξ = x − E (X) et η = y − E (Y ). On a alors χ2 = E (η − a ξ)2 = E η 2 − 2a E (ξ η) + a2 E ξ 2 = var (y) − 2a cov + a2 var (ξ) On reconnait alors un trinome en la variable a et la conclusion suit. Remark 2.3.4. Le F RV est une mesure de la qualité de l’approximation. Plus il est élevé, meilleure est l’approximation. Proposition 2.3.5. L’écart quadratique moyen entre un nuage de points (x, y) et la droite y = A x + B est donné par : χ2 = (E (y) − A E (x) − B)2 + (A − α)2 var (x) + var (y) ÷ F RV Remark 2.3.6. On peut faire la même chose dans le sens y vers x. Cela donne le même coefficient de corrélation, mais les droites de tendance ne sont pas les mêmes. Exercise 2.3.7. Quelle est la valeur du F RV pour r = 0.3 ? Quelle valeur de r conduit à un F RV égal à 2 ? 2.4 Indépendance linéaire Caveat : ne pas confondre avec indépendance complète. Theorem 2.4.1. Sur l’espace des variables, la moyenne est une forme linéaire. Sur l’espace des variables centrées, la variance est une forme quadratique, dont la covariance est la polarisée. On a donc : moy (a x + b y) = a moy (x) + b moy (y) var (a x + b y) = a2 var (x) + b2 var (y) + 2a b cov (x, y) 18 2. Distributions bivariées Definition 2.4.2. On dit que deux variables X, Y sont linéairement indépendantes lorsque cov (X, Y ) = 0. Cette définition équivaut donc à var (X + Y ) = var (X)+var (Y ). Definition 2.4.3. Coefficient de corrélation. On pose r = grandeur sans dimensions (c’est à dire un nombre). cov (x, y) . σx σy Ce coefficient est une Exercise 2.4.4. Montrer r est toujours compris dans l’intervalle [−1 ; +1]. cov ≈ 0.0006 . Le caractère x Example 2.4.5. Dans l’exemple ci-dessus, on a r2 = var(x) var(y) intervient dans 0.06 % de la variance de y : les caractères x et y sont (presque) linéairement indépendants. Exercise 2.4.6. On considère les 7 couples définis par x = −3, −2, −1, 0, +1, +2, +3 et par y = x2 . Poser les calculs et conclure. 2.5 Exercices sur le web www.obs-vlfr.fr/~enseigne/maitp6/poly_exo/corrregr.htm: Maitrise BPE (upmc) 2.6 Un exemple (DO) Exercise 2.6.1. On considère la série de points : [4.11, 12.6], [5.73, 12.8], [5.47, 11.2], [5.16, 11.9], [2.44, 9.58] [6.98, 16.9], [2.94, 7.59], [4.34, 12.5], [2.47, 8.14], [6.16, 16.8] 1. Les sommes valent : P P P 1 = 10, x = 45.80, yP = 120.01 P 2 P x = 232.4712, x y = 589.2936, y 2 = 1529.3941 2. Les paramètres de dispersion valent n = 10., x = 4.580, y = 12.001, σx2 = 2.270720, cov = 3.964780, σy2 = 8.915409 3. Le facteur de réduction de variance et l’écart-type résiduel valent : f rv = 4.473981996 et σresiduel = 1.411638582 4. La droite de régression est 4.004112494 + 1.746045307 x 15 9.02 3.07 6.09 Fig.2.1 – Exemple de régression affine 2.7. Régression affine (données groupées) 19 Scilab 2.6.2. n=size(x,’*’) ; mx=mean(xx) ; vx=covar(xx,xx,eye(n,n)) ; Exercise 2.6.3. Recommencer la série : [6.67, −10.7], [6.36, −11.3], [2.51, −3.14], [3.47, −5.82], [3.37, .24] [5.93, −5.76], [6.17, −9.54], [5.41, −8.51], [2.09, 1.81], [3.45, −.61] Exercise 2.6.4. De même avec On recommence avec [2.48, 5.73], [3.73, 7.77], [3.10, 6.55], [2.69, 5.46], [4.88, 10.6] [4.98, 10.6], [4.47, 8.98], [4.75, 9.57], [4.21, 8.74], [3.29, 6.64] 2.7 Régression affine (données groupées) (y Exercise 2.7.1. Traiter la distribution groupée : (y (y (y = 5) = 4) = 3) = 1) (x = 1) 9 6 2 0 (2) 6 7 3 3 (3) 2 5 5 2 (5) 1 3 6 5 (6) 0 2 4 9 1. Description Maple du problème N:= Matrix([[9, 6, 2, 1, K], [6, 7, 5, 3, 2], [2, 3, 5, 6, 4], [K, 3, 2, 5, 9]]) ; X:= Transpose(< 1,2,3,5,6 >) ; Y:= < 5,4,3,1 > ; visu:= < < “, map(Z -> “(Z), Y) > | < map(Z -> “(Z), X), N > > ; 2. Calcul des paramètres de dispersion (utilisant les macros nbr, moy, var, cov). yy,xx:= Dimension(N) : datx:= [seq(seq(Weight(X[j], N[i,j]), i=1..yy),j=1..xx)] : daty:= [seq(seq(Weight(Y[i], N[i,j]), i=1..yy),j=1..xx)] : datx, daty:= remove(has,datx,K), remove(has,daty,K) : nn:= nbr(datx) ; mx, my:= moy(datx), moy(daty) ; vx, vxy, vy:= var(datx), cov(datx, daty), var(daty); FRV:=1/(1-vxy^2/vx/vy) ; evalf(%) ; nn := 80, 80 ; mx, my := 131 261 , 40 80 F RV := ; vx, vxy, vy := 5519 −4991 13239 , , 1600 3200 6400 73066041 ≈ 1.517 48155960 3. Droite de régression et tracé (Fig. 2.2). regr:= my+(x-mx)*vxy/vx ; pl1:=plot({regr+sqrt(vy/FRV), regr-sqrt(vy/FRV)}, x=0..7, color=blue): pl2:= plot({my+sqrt(vy), my-sqrt(vy)}, x=0..7, color=red) : stats[statplots,scatterplot](datx, daty, format=sunflower, color=black): displayg(pl2, pl1, yshift(-0.5, xshift(-0.5, %)), scaling=constrained, labels=[“,“], tickmarks=[[1,6],[1,5]]) ; droite := 52357 4991 − x 11038 11038 20 2. Distributions bivariées 5 1 1 6 Fig.2.2 – Distribution groupée : marguerites et bande de confiance. Exercise 2.7.2. La distribution de la Tab. 2.2 concerne 50 points (x, y) avec x = 1, 2, 4, 5 et y = 1, 4, 6, 7. Déterminer la meilleure droite de régression affine et le F RV ainsi obtenu. Illustration graphique. ↓y x→ 7 6 4 1 1 7 3 2 1 2 3 7 2 3 4 1 3 6 3 5 1 1 3 4 Tab.2.2 – Les données de l’exercice 2.7.2. Chapitre 3 Probabilités 3.1 Probabilités Definition 3.1.1. Univers Ω "ensemble des résultats possibles". Definition 3.1.2. Dans le cas fini, un événement est une partie (quelconque) de Ω. Dans le cas infini, c’est un peu plus compliqué. Dans tous les cas, l’ensemble des événements est clos par complémentarité, intersection et réunion finie. Definition 3.1.3. Un événement élémentaire est un événement qui s’écrit {x} avec x ∈ Ω. Definition 3.1.4. Evénements incompatibles est A ∩ B = ∅. Definition 3.1.5. Une probabilité (ou encore : une mesure de probabilité) est une fonction vérifiant : P (Ω) ,→ R+ P r (Ω) = 1 P r (A ∪ B) = P r (A) + P r (B) lorsque A ∩ B = ∅ Dans le cas où Ω est fini, cela suffit. Sinon, cela est un peu plus compliqué. . Proposition 3.1.6. Si l’on utilise la notation P r (ωj ) = P r ({ωj }), alors A = {ω1 , ω2 , ω3 , · · · , ωn } =⇒ P r (A) = n X P r (ωj ) 1 Exercise 3.1.7. Montrer que cette formule ne peut absolument pas s’appliquer au cas infini. Proposition 3.1.8. Pr (A ∪ B) = P r (A) + P r (B) − P r (A ∩ B). En particulier, P r {A = 1 − P r (A). Proposition 3.1.9. Dans le cas d’un univers fini de résultats équiprobables, P r (A) = #A . #Ω Exercise 3.1.10. Vous faites partie d’un groupe de 12 personnes. Un sous-groupe de quatre personnes est choisi de façon équiprobable. Calculer, de plusieurs façons, la probabilité pour que vous soyez membre du sous-groupe choisi. Exercise 3.1.11. Le problème du chevalier de Méré. Déterminer quel est l’événement le plus probable : obtenir au moins un as en lançant 4 fois un dé, ou bien obtenir au moins un double as en lançant 24 fois deux dés ? 21 22 3. Probabilités 3.2 Probabilités conditionnelles Definition 3.2.1. Probabilité de A quand E a eu lieu. Lorsque P r (E) 6= 0, on pose : . P r (A ∩ E) P r (A | E) = P r (E) Exercise 3.2.2. Vérifier que P r (. | E) est une probabilité sur Ω. Definition 3.2.3. Deux événements A, B sont (complètement) indépendants veut dire P r (A | B) = P r (A) c0 est à dire : P r (A ∩ B) = P r (A) × P r (B) Exercise 3.2.4. On lance un dé : Ω = {1, 2, 3, 4, 5, 6}. On appelle "pair" l’événement A = {2, 4, 6} et "passe" l’événement {4, 5, 6}. Quelle est la probabilité (ordinaire) de "passe", sa probabilité sachant que pair a eu lieu, sa probabilité sachant que pair n’a pas eu lieu. Definition 3.2.5. On appelle partition de Ω une famille (Ai )i∈I de parties de Ω telle que : ∀i : Ai 6= ∅ ; Ai ∩ Aj 6= ∅ ⇒ i 6= j ; ∪Ai = Ω En probabilités, on est plutôt intéressé par une "bonne partition", vérifiant la condition plus restrictive : ∀i : P r (Ai ) 6= 0 Proposition 3.2.6. Formule des "probabilités totales" : si (Ai )1≤i≤n est une bonne partition de Ω alors n X P r (B) = P r (B | Ai ) P r (Ai ) 1 Exercise 3.2.7. Démontrer cette formule des probabilités totales. Proposition 3.2.8 (Bayes). Lorsque P r (A) 6= 0 et P r (B) 6= 0, on a la formule : P r (B | A) = P r (A | B) P r (B) P r (A) Example 3.2.9. On lance deux dés et l’on cherche la probabilité de faire au moins un as. Comparons plusieurs méthodes. 1. Utilisation du complémentaire. Soit Ω = {11, 01, 10, 00} en appelant (par exemple) 01 l’événement "pas d’as la première fois, un as la deuxième fois". Alors l’événement favorable est α = {11, 01, 10}. Son complémentaire est {α = {00} . Par indépendance des deux lancers, la probabilité de {α est le produit de P r (x1 6= 1) par P r (x2 6= 1). Soit 5 5 11 P r (α) = 1 − × = 6 6 36 2. Disjonction des cas. Par la méthode précédente, on détermine les probabilités de chacun des événements élémentaires (deux à deux incompatibles) composant α et on les additionne. On obtient : 1 1 5 1 1 5 P r (α) = × + × + × 6 6 6 6 6 6 3.3. Variables aléatoires 23 3. Probabilités totales. Soient B1 et B2 les événements : l’as est sorti (resp. n’est pas sorti) au premier lancer. Ces événements forment une partition de Ω, ce que l’on peut finir de rendre évident en les écrivant sous la forme B1 = {10, 11} et B2 = {00, 01}. On a alors P r (α | B1 ) = 1 et P r (α | B2 ) = 1/6. Et donc P r (α) = P r (α | B1 ) P r (B1 ) + P r (α | B2 ) P r (B2 ) = 1 × 11 1 1 5 + × = 6 6 6 36 4. Formule de la réunion. Soit C1 l’événement : l’as est sorti au deuxième lancer. On a α = B1 ∪ C1 . En additionnant les probabilités, on compterait deux fois l’événement "l’as est sorti à chaque fois". Et donc P r (α) = P r (B1 ) + P r (C1 ) − P r (B1 ∩ C1 ) = 1 11 1 1 + − = 6 6 36 36 Exercise 3.2.10. Une urne contient trois boules blanches et deux noires, et on tire successivement deux boules. A est "tirer deux boules de même couleur", B1 est "la première boule est blanche", B2 est "la première boule est noire". On a P r (A) = P r (A | B1 ) P r (B1 )+ = 34 . P r (A | B2 ) P r (B2 ) = 24 35 + 41 25 = 52 . Et de plus P r (B1 | A) = 21 3/5 2/5 Exercise 3.2.11. Vous faites partie d’un groupe de 12 personnes. Un sous-groupe de quatre personnes est choisi de façon équiprobable. Utiliser les probabilités conditionnelles pour retrouver la probabilité pour que vous soyez membre du sous-groupe choisi. Exercise 3.2.12. Peut-on déterminer P r (A) et P r (B) sachant que P r (A ∪ B) = 0.7 et que P r (A ∩ B) = 0.1 ? Et si l’on rajoute l’hypothèse d’indépendance (complète) entre les deux événements ? Exercise 3.2.13. On examine des pièces de tissu. Lorsque la pièce est conforme au cahier des charges, sa probabilité d’acceptation est de 95%. Lorsque la pièce est défectueuse, sa probabilité de rejet est de 98%. Soit p la proportion de pièces défectueuses par rapport au total. Déterminer la proportion q de pièces effectivement défectueuses parmi les pièces mises au rebut. Quelle est les valeurs de p correspondant à q ≥ 80% ? Exercise 3.2.14. Bénéfice escompté. 3.3 Variables aléatoires Definition 3.3.1. Une variable discrète est (Z, P r (.)), une variable continue est (R, P r (.)). Le cas fini se traite par plongement dans Z et les "ensembles non-tordus" par plongement dans R. Definition 3.3.2. Fonction de répartition F (x) = P r (]−∞, x[) = P r (X < x). Proposition 3.3.3. Une fonction de répartition F est croissante, continue à gauche et vérifie F (−∞) = 0 ; F (+∞) = 1 ; P r (a ≤ X < b) = F (b) − F (a) Exercise 3.3.4. Vérifier que P r (a ≤ X ≤ b) = inf {F (x) | x > b} − F (a). Proposition 3.3.5. La fonction de répartition est continue en x = a si et seulement si P r (X = a) = 0. 24 3. Probabilités 3.3.6. Densité. Si f R: R ,→ R est continue par morceaux, positive et vérifie RDefinition +∞ f (t) dt = 1, alors P r (A) = A f (t) dt définit une v.a. continue. On dit alors que f −∞ est la densité de probabilité de cette variable. Definition 3.3.7. Espérance. Pour une variable discrète X, on définit X E (X) = k P r (X = k) k∈Z Proposition 3.3.8. Dans le cas d’un jeu de hasard, l’espérance de gain permet de déterminer la "mise équitable", c’est à dire la mise qui, sur le long terme, n’avantage ni le parieur ni celui qui prend les paris. Exercise 3.3.9. On lance une pièce une fois. Si pile apparait, on gagne 2€. Quelle est la mise équitable ? Exercise 3.3.10. On lance une pièce trois fois. Si la première apparition de pile se produit au troisième lancer, on gagne 8€. Quelle est la mise équitable ? Exercise 3.3.11. On lance une pièce jusqu’à ce que pile apparaisse. Si le nombre de lancers a été n, on gagne 2n €. Quelle est la mise équitable ? . Definition 3.3.12. Variance. On définit var (X) = E ((X − E (X))2 ), et on obtient la formule var (X) = E (X 2 ) − (E (X))2 . 3.4 Dans le cas des variables discrètes infinies P P La convergence des deux quantités E (X) = n∈N xn pn et E (X 2 ) = n∈N x2n pn ne sont plus automatiques : il faut donc commencer par vérifier que ces sommes sont bien définies. Chapitre 4 Variables aléatoires discrètes 4.1 Loi uniforme sur {1, 2, · · · , m}. Definition 4.1.1. P r (X = k) = 1 m si k ∈ Ω et 0 sinon. Proposition 4.1.2. Formules : E (X) = (m + 1) ÷ 2 et var (X) = n2 − 1 ÷ 12 Exercise 4.1.3. Retrouver ces formules. On pourra utiliser une sommation télescopique des relations (k + 1)2 − k 2 = 2 k + 1 et (k + 1)3 − k 3 = 3 k 2 + 3 k + 1. R x=n R x=n+1 P 2 dx. Peut-on Exercise 4.1.4. Comparer k=n k=1 k avec les intégrales x=0 dx et x=1 trouver une meilleure approximation ? Exercise 4.1.5. Déterminer les moments, c’est à dire les espérances E (X n ) pour n ∈ N. En déduire les moments centrés, c’est à dire les espérances E ((X − E (X))n ). 4.2 Loi de Bernoulli. Definition 4.2.1. P r (X = 1) = p (succès) et P r (X = 0) = 1 − p. Proposition 4.2.2. Formules : E (X) = p et var (X) = p (1 − p). 4.3 Somme de variables indépendantes Theorem 4.3.1. Si X et Y sont deux variables aléatoires discrètes, la loi de la somme Z = X + Y est X P r (Z = z) = P r (X = x) × P r (Y = z − x) x∈Z Definition 4.3.2. Cette loi de composition s’appelle : convolution Exercise 4.3.3. On lance deux dés. Quelle est la loi de la somme A = x + y ? Quelle est la loi de la différence B = x − y ? Quelle est la corrélation entre A et B ? 25 26 4.4 4. Variables aléatoires discrètes Séries génératrices P Definition 4.4.1. Séries génératrices. S (z) = k P r (X = k) z k avec z ∈ C. Il est clair que cette série converge uniformément pour |z| ≤ 1 − ε. Exercise 4.4.2. Vérifier que, pour la loi de Bernoulli, S (z) = q + p z. Theorem 4.4.3. Pour une variable à support fini, on a X 1= P r (X = k) = S (1) k E (X) = X k P r (X = k) = S 0 (1) k 2 var (X) = S 00 (1) + S 0 (1) − (S 0 (1)) Preuve. S 00 (1) = P k k (k − 1) P r (X = k) = E (X (X − 1)). Exercise 4.4.4. Vérifier ces formules pour la loi de Bernoulli S (z) = q + p z. Exercise 4.4.5. Vérifier que la série génératrice d’une variable uniforme sur {1, 2, · · · , m} est 1 z m+1 − z S (z) = m z−1 Utiliser ce résultat pour retrouver les paramètres de dispersion. Theorem 4.4.6. La série génératrice de la somme de deux variables aléatoires discrètes indépendantes est le produit des séries génératrices. 4.5 Loi binomiale Definition 4.5.1. K = Bin (n, p) est la loi du nombre de succès en n épreuves de Bernoulli indépendantes. Proposition 4.5.2. Formules : n k n−k P r (K = k) = p q ; E (K) = n p ; var (K) = n p q k Exercise 4.5.3. Vérifier ces formules par un calcul direct pour n = 2, n = 3 et n = 4. Exercise 4.5.4. Retrouver ces formules en appliquant les théorèmes généraux sur les espérances et les variances. Exercise 4.5.5. Déterminer les espérances E (K n ) (moments d’ordre n) pour n ∈ N. En déduire les espérances E ((K − E (K))n ) (moments centrés d’ordre n). Exercise 4.5.6. Vérifier que l’on a S (z) = (q + p z)n . Utiliser ce résultat pour retrouver E (K) et var (K). Exercise 4.5.7. Tracer les histogrammes correspondants à n = 5, n = 10, n = 20 et n = 40 pour p = 21 , puis pour p choisi de façon que n p = 1.Que peut-on dire de la somme de deux variables binomiales indépendantes ? 4.6. Loi hypergéométrique 4.6 27 Loi hypergéométrique Definition 4.6.1. On prélève, sans remise et avec une probabilité uniforme, un échantillon de taille n au sein d’une population de N individus. On s’intéresse à un certain caractère binaire (i.e. présent ou absent), et on appelle m le nombre d’occurences de ce caractère dans l’échantillon et p sa prévalence (fréquence) dans la population. Proposition 4.6.2. La loi hypergéométrique Hyp (N, n, p) est Np Nq N P r (M = m) = × ÷ m n−m n Proposition 4.6.3. Formules : E (X) = np et var (X) = n p q N −n . N −1 Exercise 4.6.4. Déterminer les moments, c’est à dire les espérances E (X n ) pour n ∈ N. En déduire les moments centrés, c’est à dire les espérances E ((X − E (X))n ). Proposition 4.6.5. Si l’on fait N → ∞ dans Hyp (N, n, p), on obtient la loi binomiale Bin (n, p). 4.7 Exercices Exercise 4.7.1. Soit X la variable définie par la distribution de probabilité suivante : 1 2 3 4 5 6 X . Déterminer α. Calculer E (X), var (X) et σX . En déP r (X) .1 α .2 .1 .1 .1 duire les paramètres de dispersion des variables Y1 = 2 X, Y2 = − 12 X et Y3 = X − 3. Exercise 4.7.2. On joue quatre fois de suite à pile ou face. Quelle est la distribution du nombre K de fois où l’on a obtenu pile ? Dessin et paramètres de dispersion. Mêmes questions pour n = 12 et n = 20 (ne pas hésiter à utiliser un ordinateur...). Exercise 4.7.3. Une jardinerie garantit à tout acheteur de plants de tomates que 90% des plants se développeront correctement après repiquage. Quelle est la probabilité d’obtenir au moins 18 pieds de tomate après un achat de 20 plants ? Quelle est la probabilité de perdre au plus 50 plants après un achat de 200 plants ? Exercise 4.7.4. Concours ENAC. L’épreuve de mathématiques du concours ENAC consiste en un QCM de 50 questions. Pour chacune, 4 réponses sont proposées. Chaque candidat choisit 40 questions et indique la réponse qui lui parait convenir. Une réponse exacte est valorisée de 2 points, chaque réponse inexacte est pénalisée de 1 point. On considère le sous-ensemble Ω1 des candidats qui répondent de façon aléatoire (uniforme). Quels sont les paramètres de dispersion E (X) et σX des notes obtenues ? On considère le sous-ensemble Ω2 des candidats qui choisissent uniformément les questions et y répondent avec un taux de succès de 80%. Donner les paramètres de dispersion correspondants. On considère enfin le sous-ensemble de Ω2 constitué de candidats qui savent en outre identifier les 20 questions les plus faciles, et y répondent alors avec un taux de 100%. Donner les paramètres de dispersion correspondants. 28 4. Variables aléatoires discrètes Chapitre 5 Variables à densité 5.1 Principes généraux Moyennant diverses précautions oratoires, on a : R +∞ Definition 5.1.1.RSi f : R ,→ R est continue par morceaux, positive et vérifie −∞ f (t) dt = 1, alors P r (A) = A f (t) dt définit une v.a. continue. La fonction f est la densité de probabilité de cette variable. Notation 5.1.2. df = density function. Ne pas confondre avec df .... Remark 5.1.3. Caveat : la quantité f (x) n’est pas la probabilité de X = x. En effet, cette probabilité est nulle (c’est précisément la condition pour qu’il y ait une densité de probabilité). Proposition 5.1.4. Propriété des aires. Le graphe de f (x) généralise la notion d’histogramme. Dans les deux cas, les probabilités sont représentées par des surfaces. En particulier P r (X ∈ [x, x + dx]) = f (x) dx Definition 5.1.5. Pour une variable à densité X, on définit Z +∞ . E (X) = t f (t) dt −∞ . var (X) = Z +∞ (t − E (X))2 f (t) dt = E X 2 − (E (X))2 −∞ Proposition 5.1.6. Comme pour les variables discrètes, on a : E (a X + b) = a E (X) + b var (a X + b) = a2 var (X) 5.2 Loi uniforme Definition 5.2.1. Loi uniforme sur [a, b] : f (x) = 29 1 b−a si a ≤ x ≤ b et f (x) = 0 sinon. 30 5. Variables à densité Proposition 5.2.2. Formules E (X) = 1 1 (a + b) ; var (X) = (b − a)2 2 12 Exercise 5.2.3. Soient X et Y deux variables uniformément distribuées sur [1, 3] et sur . [2, 5]. Quelle est la loi de Z = X + Y ? Exercise 5.2.4. (pour l’exercice suivant) On regroupe plusieurs populations finies Ωj , ayant des effectifs différents nj . Rappeler comment obtenir la moyenne et la variance de la population totale à partir des paramètres des Ωj . Exercise 5.2.5. On considère une variable à densité X prenant ses valeurs dans l’intervalle [a, b]. Pour un n entier donné, on pose ∆x = b−a et, pour 0 ≤ k ≤ n, xk = a + k ∆x n ainsi que, pour 1 ≤ k ≤ n, yk = 21 (xk−1 + xk ). On définit une variable aléatoire discrète Y en posant P r (yk ) = P r (X < xk ) − P r (X < xk−1 ). Montrer que l’on a E (X) ' E (Y ) et var (X) ' var (Y ) + α ∆x2 avec α constante à déterminer. Exercise 5.2.6. On considère deux variables aléatoires indépendantes X et Y , toutes deux distribuées selon la même loi uniforme sur [0, 1]. Déterminer la loi de la variable Z =X +Y. 5.3 Variables positives Definition 5.3.1. Le coefficient de variation d’une variable positive x est défini par : p var (x) . σ Vc = = µ E (x) Remark. Il est clair que la notion même de coefficient de variation devient absurde si l’on ne suppose pas que la variable est positive. Lorsque cette qantité est bien définie, elle possède l’avantage d’être sans dimension, et de permettre une comparaison standardisée entre deux variables. Definition 5.3.2. On appelle variable observable X associée à une variable positive x la nouvelle variable obtenue en séléctionnant les individus proportionnellement à la valeur de x. Les paramètres associés à la variable x sont appelés paramètres "en nombre" (ou individuels) et ceux associés à la variable X paramètres "en poids". Remark. Considérons une population Ω dont les individus i présentent un caractère positif désigné par ξ (i). La fonction ξ est donc une application Ω ,→ R+ . Lorsque l’on cherche à déterminer la loi du caractère ξ, il y a deux façons de sélectionner les individus composant l’échantillon d’étude. On peut en effet utiliser comme référence une loi uniforme sur les individus ou bien une loi uniforme sur les valeurs. Le premier choix conduit à la variable x, le deuxième à la variable X. Exercise 5.3.3. On considère un processus d’attente, par exemple l’attente à un passage à niveau. Le temps d’attente moyen lorsque l’on voit se baisser la barrière n’est pas le même que le temps d’attente moyen lorsque la barrière est déjà baissée lorsque l’on arrive. Calculer ces deux moyennes lorsque la loi "en nombre" est déterministe, uniforme sur un intervalle, binomiale, exponentielle. 5.4. Formules de convolutions 31 Exercise 5.3.4. On se demande quel est le volume moyen d’une particule dans un mélange de particules. Décrire des protocoles expérimentaux associés aux variables x et X. De même pour la masse moyenne des molécules d’un polymère. Proposition 5.3.5. Lorsque les chances de la variable x sont données par f (x), les chances de X sont données par x f (x). Lorsque f est la densité de probabilité de x, la x f (x) et l’on a : densité de probabilité de X est E(x) E (X) = E (x2 ) = E (x) × 1 + Vc2 E (x) (5.1) Exercise 5.3.6. Les polyméristes ont l’habitude de considérer le rapport E (X) /E (x) (indice de polydispersité). Lorsque cet indice vaut 2, quelle est la valeur de σ ? 5.4 Formules de convolutions Theorem 5.4.1. Soient t, z deux variables indépendantes et φ une transformation telle que les variables x = φ (t, z) , y = z soient indépendantes et admettent f et g comme pdf sur R. Alors la densité de probabilité de t est : Z pdf (t) = f (φ (t, z)) |φ0t (t, z)| g (z) dz z∈R Preuve. On passe aux cdf et on applique Fubini : ZZ Z Z f (x) g (y) dx dy = f (φ (t, z)) g (z) × Jac dz dt {(x, y)|t<T } t<T z∈R Proposition 5.4.2. La loi de la somme de deux variables indépendantes est donnée par l’opérateur de convolution : Z f (t − z) g (z) dz (f ? g) (t) = R Exercise 5.4.3. Déterminer la loi de la somme de x uniforme sur [1, 4] et de y uniforme sur [1, 5]. Proposition 5.4.4. Si f et g sont les lois des variables indépendantes x et y, la loi du quotient t = x/y est : Z z f (t z) g (z) dz R 5.5 Loi gamma Proposition 5.5.1. Pour n entier positif, on a : Z ∞ xn exp (−x) dx = n! 0 32 5. Variables à densité Definition 5.5.2. La fonction Gamma d’Euler est définie par Z ∞ xs−1 exp (−x) dx Γ (s) = 0 Definition 5.5.3. Une variable aléatoire de loi Gamma réduite et de paramètre a se définit par : 1 pdf (x) = xa−1 exp (−x) Γ (a) Proposition 5.5.4. Les paramètres de dispersion d’une variable gamma réduite sont égaux au paramètre de la loi : E (x) = a, var (x) = a. Proposition 5.5.5. La somme de deux variables gamma réduites indépendantes, ayant pour paramètres a1 et a2 est une variable gamma, de paramètre a1 + a2 . Preuve. Comme ces variables sont positives, la formule de convolution donne (en posant z = t u) ; Z z=t pdf (t) = Cte × (t − z)a−1 exp (−t + z) z b−1 exp (−z) dz z=0 Z 1 a−1 b−1 a−1+b−1+1 (1 − u) u du = exp (−t) t × Cte 0 et la conclusion suit. Au passage, on obtient la valeur de R1 0 (1 − u)a−1 ub−1 du. Definition 5.5.6. On appelle variable gamma de paramètres a et b une variable x telle que x/b suit une loi gamma réduite de paramètre a. Chapitre 6 Les lois limites de la loi binomiale 6.1 Les deux types de clientelle Il y a deux façons essentiellement différentes de passer à la limite dans la loi binomiale. Illustrons cela par l’exemple d’une clientelle, comme celle d’une marina. Les clients peuvent se décomposer en deux classes : les clients réguliers et les clients de passage. Les "clients de passage" sont des clients qui, individuellement, n’avaient guère de raison de passer par là (plutôt que de passer ailleurs) : leur probabilité individuelle de présence est très faible. Mais, ayant un bateau, il faut bien qu’ils bougent de temps en temps. Comme le nombre total de plaisanciers est très grand, le nombre k des clients qui sont "de passage", ici et maintenant, oscille autour de la valeur N p, qui prend une valeur finie non nulle. Les "clients réguliers", au contraire, ont à la fois une probabilité non négligeable d’être présents (c’est leur port d’attache) et une probabilité non négligeable d’être partis (une des raisons d’avoir un bateau étant de naviguer). Faire tendre n vers l’infini dans ces conditions revient à faire tendre σ 2 = n p q vers l’infini. On a alors k → ∞. En pareil cas, ce n’est plus la loi de k qui est intéressante, mais la loi de la variable réduite : z = (k − n p) /σ. 6.2 La loi de Poisson, loi limite pour n p → λ ; n → ∞ Proposition 6.2.1. La limite de la loi binomiale pour n → ∞ ; Poisson : λk exp (−λ) P r (K = k) = k! Preuve. Supposons donc que n → ∞ ; n p → λ est la loi de n p → λ (clientelle de passage). On a : n! pk (1 − p)n−k k! (n − k)! 1 (n) (n − 1) · · · (n − k + 1) n p n−k k = × (n p) 1 − k! (n) (n) · · · (n) n P r (K = k) = Pour k fixé et n → ∞, la fraction tend vers 1. Pour n p → λ, le troisième facteur tend vers λk . Enfin, le dernier facteur tend vers exp (−λ). Exercise 6.2.2. Vérifier ΣP r (k) = 1, E (K) = lim (n p) = λ et var (K) = lim (n p q) = λ. 33 34 6. Les lois limites de la loi binomiale 6.3 La loi de Gauss, loi binomiale limite pour σ → ∞ Remark 6.3.1. Lorsque l’on trace les histogrammes de la variable réduite pour diverses lois binomiales, on constate que les graphes obtenus présentent la même allure de "courbe en cloche" lorsque le produit σ 2 = n p (1 − p) est assez grand. 0.39 0.28 20 k .1k .9(20−k) 0 0 2 –2 20 0 2 Fig.6.1 – Un exemple avec p petit. 0.15 80 k 0.39 0 .1k .9(80−k) 0 8 –2 80 0 2 Fig.6.2 – Sans changer p, mais avec n plus grand. 0.39 0.24 10 k .5k .5(10−k) 0 0 5 10 –2 Fig.6.3 – Convergence plus rapide lorsque p = 0.5. 0 2 6.4. Propriétés élémentaires 35 Remark 6.3.2. Pour σ fixé, le passage à la limite est d’autant meilleur que p est proche de 0.5 (symétrie préalable). Proposition 6.3.3. Règle des sigmas : P r (X ∈ [µ ± σ]) P r (X ∈ [µ ± 2σ]) P r (X ∈ [µ ± 2.5σ]) P r (X ∈ [µ ± 3σ]) = = = = 0.68 ≈ 2/3 0.95 0.99 0.997 Les Tab. 6.1 et Tab. 6.2 donnent les fréquences cumulatives de la loi de Gauss (loi normale réduite). −.9 −2 .002 −1 .029 −0 .184 0 1 2 3 .0 .500 .841 .977 .999 −.8 .003 .036 .212 .1 .540 .864 .982 .999 −.7 .003 .045 .242 −.6 .005 .055 .274 −.5 .006 .067 .309 −.4 .008 .081 .345 −.3 .011 .097 .382 −.2 .014 .115 .421 −.1 .018 .136 .460 −.0 .023 .159 .500 .2 .3 .4 .5 .6 .7 .8 .9 .579 .618 .655 .691 .726 .758 .788 .816 .885 .903 .919 .933 .945 .955 .964 .971 .986 .989 .992 .994 .995 .997 .997 .998 .999 1 1 1 1 1 1 1 Tab.6.1 – Loi normale (cumulative) : table courte 6.4 Propriétés élémentaires Theorem 6.4.1. La loi normale réduite (ou loi de Gauss) est caractérisée par la densité : 1 2 1 f (z) = √ exp − z 2 2π Preuve. La preuve de ce théorème se trouve Section A.3. Remark 6.4.2. Il est indispensable de repérer comment obtenir à la calculette les valeurs Rz de f (z) et de la fonction de répartition F (z) = −∞ f (t) dt . Exercise 6.4.3. Déterminer P r (X < 0), P r (2 < X < 3) et P r (|X| < 2). Exercise 6.4.4. Déterminer x tel que P r (X < x) = 0.9625, puis P r (−x < X < x) = 0.9625, puis P r (0 < X < x) = 0.35, et enfin P r (−2 < X < x) = 0.50. Remark 6.4.5. Par construction l’espérance de z est nulle, et sa variance vaut 1. Definition 6.4.6. La loi normale générale N orm (µ, σ) est définie par la densité f (x) = 2 x−µ 1 1 √ . exp − 2 σ σ 2π R +∞ R +∞ On a donc −∞ f (t) dt = 1, E (X) = −∞ t f (t) dt = µ et var (X) = σ 2 . Remark 6.4.7. La loi normale réduite est donc N orm (0, 1). 36 6. Les lois limites de la loi binomiale 0. .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 0. .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .01 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 .02 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 .03 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 .04 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 .05 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 .06 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 .07 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 .08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 Tab.6.2 – Loi normale (cumulative) : table longue .09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 6.4. Propriétés élémentaires 37 Exercise 6.4.8. Si les âges d’un groupe de personnes sont distribués suivant la loi normale N orm (41, 8), quel est le pourcentage des membres de ce groupe ayant : (a) moins de 53 ans ; (b) au moins 35 ans ; (b) entre 25 et 49 ans ? Exercise 6.4.9. On sait que la variable X suit une loi normale et que P r (X < 8) = 0.35 et P r (15 < X) = 0.16. Déterminer µ et σ. Exercise 6.4.10. Les âges d’un groupe d’étudiants sont répartis suivant la loi N orm (22, 2). Quel est l’âge moyen du tiers le plus jeune ? √ Proposition 6.4.11. En pratique, on approxime Bin (n, p) par N orm n p, n p q lorsque n p q > 9. Proposition 6.4.12. Si X est une variable normale, Y = a X + b est aussi une variable normale. On a donc a X + b = N orm (a µ + b, |a| σ). Proposition 6.4.13. Une somme de variablesnormales indépendantes est encore une p variable normale. On a donc X1 + X2 = N orm µ1 + µ2 , σ12 + σ22 . Preuve. Avec les notations ci-dessus, la densité de probabilité de T = X1 + X2 vaut : ! Z z=+∞ (t − z − µ1 )2 (z − µ2 )2 1 exp − − dz 2 π σ1 σ2 z=−∞ 2σ1 2σ2 L’argument de l’exponentielle se réécrit en "z puis t" : − 1 (t − z − µ1 )2 (z − µ2 )2 σ2 + σ2 (t − µ1 − µ2 )2 − = − 1 2 22 (z − Z (t))2 − 2 2σ1 2σ2 2 σ1 σ2 2 (σ1 + σ22 ) où Z (t) ne dépend pas de z. Le deuxième terme donne un facteur exponentiel qui sort de l’intégrale et qui est proportionnel à ce qu’il faut établir. Quant à l’intégrale sur ]−∞, +∞[ de l’exponentielle du premier terme, on voit qu’elle est constante par le changement de variable τ = z − Z (t). Exercise 6.4.14. Le fameux exercice des plaques de chocolat. Une presse façonne des plaques de chocolat dont le poids X suit une loi normale d’espérance m et d’écart-type σ = 3 (grammes). Le réglage de la presse permet de modifier m par pas de 0.1 grammes sans affecter σ. Les services du contrôle économique admettent que 2.5% du nombre des articles de cette nature puissent peser moins que le poids net mentionné sur l’emballage. (a) Déterminer m pour respecter la tolérance administrative lorsque le poids net marqué est 250 grammes. (b) On met en fabrication 100 000 plaques de chocolat qui seront vendues par lots de 2 plaques avec pour mention "poids net 500 grammes". Déterminer m ainsi que l’économie réalisée. Proposition 6.4.15. Règle des sigmas : Il y a 68% (≈ 2/3) de l’effectif dans [E (X) − σ , E (X) + σ], 95% de l’effectif dans [E (X) − 2σ , E (X) + 2σ], 99% de l’effectif dans [E (X) − 2.5σ , E (X) + 2.5σ] 99.7% de l’effectif dans [E (X) − 3σ , E (X) + 3σ]. 38 6.5 6. Les lois limites de la loi binomiale Théorème central limite Theorem 6.5.1. Si X1 , · · · , Xn sont des variables indépendantes, de moyennes E (X)j . P et de variances var (X)j , on sait que leur somme Yn a pour moyenne µn = E (X)j et P 2 . 2 pour variance σn = var (X)j . Si de plus σn → ∞ lorsque n → ∞ alors la variable Yn −µn réduite Zn = σn tend vers la loi normale réduite N orm (1, 0). Remark 6.5.2. Le théorème central limite donne un nouveau point de vue quant à la convergence de la variable réduite d’une loi binomiale vers la loi de Gauss. 6.6 La loi lognormale Definition 6.6.1. On appelle lognormale une variable positive dont le logarithme suit . une loi normale. Nous définissons les paramètres M, k de cette loi par par ln M = E (ln x) . et ln k = var (ln√ x). La Fig. 6.4 donne les densités de la variable x de paramètres M = 1000, k = 2 et de la variable "en poids" associée. Les graduations horizontales correspondent à une graduation en écart-types de la variable ln x. 0 172 1000 1810 3230 5830 Fig.6.4 – Loi lognormale avec M = 1000, k = √ 2. Proposition 6.6.2. Lorsque la variable "en nombre" est lognormale avec les paramètres M, k, la variable "en poids" est lognormale avec les paramètres k M, k. Preuve. Si z est une variable de Gauss, la variable Z obtenue par la pondération exp z est une variable normale ayant la même loi que z + 1. Proposition 6.6.3. La densité d’une variable lognormale peut s’écrire : 1 ln2 (x/M ) p exp − 2 ln (k) x 2 π ln (k) 1 √ tandis que sa fonction de répartition est N orlaw ln M, ln k, ln x . En désignant par X la variable "observable" associée, on a les résultats suivants : z E (z) ln x x X ln √ M M k M k 3/2 mode median ln M M/k M ln M M Mk var (z) Vc2 ln k M k (k − 1) k − 1 M 2 k 3 (k − 1) k − 1 2 6.6. La loi lognormale 39 Preuve. La densité s’obtient par f (x) dx = norlaw (ln x) d(ln x). Un peu de calcul (chan2 gement de variable, etc.) conduit à E (xp ) = M p k p /2 . La médiane pour x est l’image de la médiane pour ln x. Le mode s’obtient par dérivation. Les résultats pour X viennent de Proposition 6.6.2. On peut constater que E (X) vérifie Eq. 5.1. Remark 6.6.4. Pour la loi lognormale, les variables "en nombre" et "en poids" ont le même coefficient de variation. Exercise 6.6.5. On considère un ensemble de particules en suspension dans un liquide. On suppose que la répartition "en poids" des poids de ces particules suit une loi lognormale de paramètres M, k. On suppose en outre que ces particules sont sphériques et ont une densité constante. Que peut-on dire de la répartition "en diamètre" des diamètres de ces particules (passer par l’intermédiaire des répartitions "en nombre"). 40 6. Les lois limites de la loi binomiale Annexe A Compléments A.1 Formules de Morgan Hypothèse : on se limite aux ensembles A, B, · · · inclus dans un ensemble Ω fixé, autrement dit, on suppose A, B, · · · ∈ P (Ω). Definition A.1.1. La fonction caractéristique de l’ensemble A est la fonction χA : Ω ,→ {0, 1} définie par χA (x) = 1 lorsque x ∈ Ω et χA (x) = 0 lorsque x ∈ / Ω (rappel : A ⊂ Ω). Definition A.1.2. Pour un ensemble fini, on a Card (A) = P x∈A χA (x). Proposition A.1.3. Pour C = A ∩ B, on a χC = χA × χB puisque x ∈ C est défini par x ∈ A et x ∈ B. / A }, Proposition A.1.4. Pour C = A, le complémentaire de A, c’est à dire {x ∈ Ω | x ∈ on a χC = 1 − χA . Proposition A.1.5. Pour C = A ∪ B, on a χC = χA + χB − χA χB . En effet, la formule χA + χB aurait pour effet de compter deux fois les éléments commune à A et à B : il convient donc de soustraire les éléments communs. Theorem A.1.6 (Morgan). Pour C = A ∪ B, on a donc χC = 1 − χA∪B = 1 − (χA + χB − χA χB ) Qui se factorise en χC = (1 − χA ) (1 − χB ) = χA χB . Prouvant que A ∪ B = A ∩ B. L’autre formule se démontre de même. On a donc : A∪B =A∩B ; A∩B =A∪B (A.1) Remark A.1.7. Critique : le problème de base en théorie des ensembles est d’être certain que l’on n’est pas en train utiliser le résultat à démontrer au cours de la démonstration de ce résultat. Or la notion de fonction nécessite celle d’ensemble et ... les ennuis commencent. En bref, nous avons montré : "si la théorie des ensembles est cohérente, alors la formule de Morgan s’applique". Remark A.1.8. On notera la ressemblance entre les formules pour χ (la mesure de dénombrement) et les formules pour P r (.) (la mesure de probabilité). 41 42 A. Compléments Fig.A.1 – Visualisation de la formule A ∪ B = A ∩ B. A.2 Loi géométrique Definition A.2.1. Loi géométrique : X = Geom (a) veut dire : X prend ses valeurs dans N et P r (X = n) proportionnelle à an . Proposition A.2.2. Formules : 1 a 1 n a ; E (X) = ; var (X) = P r (X = n) = 1−a 1−a (1 − a)2 Exercise A.2.3. Tester numériquement ces formules pour a = 0.2. Les démonter dans le cas général. Calculer les moments et les moments centrés correspondants. A.3 Passage de la loi binomiale à la loi de Gauss 1. Notations. Soit J une variable binomiale de paramètres n (le nombre total d’essais) et p (la probabilité de succès à une épreuve élémentaire). On pose q = 1 − p et k = n − j. On a P r (J = j) = nk pj q k . . 2. Variable réduite. On sait que E (J) = n p et σ 2 = var (J) = n p q. La variable p . réduite X associée à J est X = (J − E (J)) ÷ σX , soit x = j−n σ 1 2 3. Changement de variable. On peut vérifier que j = q σ + x σ et k = p1 σ 2 − x σ. On sait que la probabilité se représente par une surface (bâton d’un histogramme, tranche d’Archimède dans un graphe). Pour n fini fixé, on a évidemment P r (J = j) = P r (X = x). La hauteur des rectangles dans l’histogramme en j vaut 1 P r (J = j) et la hauteur des rectangles de l’histogramme en x (que nous allons ∆j 1 noter f (x)) vaut ∆x P r (X = x). Comme ∆j = 1 et ∆x = σ1 ∆j, on part donc de f (x) = σ n! j k pq j! k! A.3. Passage de la loi binomiale à la loi de Gauss 43 4. Formule de Stirling (version faible). Posons un = ln (n! ÷ nn ) et vn = un+1 − un . Les techniques usuelles de développement limité conduisent à , vn = n ln n − n ln (n + 1) = −1 + 1 + O 1/n2 2n √ On en conclut que n n! ∼ ne , c’est à dire le quotient de n par la moyenne géométrique des n premiers nombres entiers tend vers e = 2.718 · · · . √ 5. Formule de Stirling (version forte). Posons sn = (n/e)n n, un = ln (n! ÷ sn ) et vn = un+1 − un . Les techniques usuelles de développement limité conduisent à 1 1 1 3 ln 1 + =− vn = 1 − n + + O 1/n 2 n 12 n2 En sommant des équivalents, un admet une limite finie et il existe une constante α telle que : n! ∼ α n(n+1/2) exp (−n) (A.2) 6. Dans ce qui suit, on fixe x et on fait augmenter σ vers +∞. On a donc successivement : 1 √ √ √ n+1/2 j k −(j+1/2) −(k+1/2) f (x) ∼ p q nn p q j k α j+1/2 1 n q k+1/2 n p f (x) ∼ α k j 7. Développement limité. En posant Aj = j + 12 ln njp et Bk = k + 12 ln nkq , on obtient ln (α f (x)) = −Aj − Bk . En substituant j + j np jq npq = = donnent : σ 2 +x q σ σ2 = 1+ xq , σ 1 2 = 1 2 σ q + xσ + 1 2 et les techniques usuelles de développement limité Aj = −σ x − 21 x2 q + − 12 x q + 61 x3 q 2 σ1 + O (1/σ 2 ) Bk = +σ x − 12 x2 p + + 21 x p − 61 x3 p2 σ1 + O (1/σ 2 ) 8. En combinant et en passant aux exponentielles, on a donc : 2 x 1 1 1 2 2 exp x 3 − x (p − q) + O 1/σ f (x) = exp − α 2 6 σ 2 montrant la convergence f (x) → α1 exp − x2 . 9. Enfin, la constante α est déterminée par le fait que la probabilité totale est constante... et vaut donc 1. Pour déterminer la valeur de l’intégrale de Gauss, i.e. : Z ∞ 1 2 G= exp − x dx 2 −∞ on en calcule le carré. Il vient Z Z ZZ 1 2 1 2 1 2 1 2 2 G = exp − x dx× exp − y dy = exp − x exp − y dx dy 2 2 2 2 R R plan Passant en polaire, on obtient ZZ Z ∞ 1 2 2 G = exp − ρ ρ dρ dθ = 2 π exp (−u) du = 2 π 2 0 plan 44 A. Compléments √ 10. On en déduit que la constante dans la formule de Stirling vaut α = 1/ 2 π. La valeur limite de la densité de probabilité de la variable réduite est donc donnée par : 2 1 x gauss (x) = √ exp − 2 2π A.4 Loi normale Definition A.4.1. Définition : loi de Gauss. La loi de Gauss est définie par la densité : 1 1 2 (A.3) Gauss = N orm (0, 1) : f (z) = √ exp − z 2 2π tandis que la loi normale “générale” est définie par la densité N orm (µ, σ) : 1 1 f (x) = √ exp − 2 σ 2π x−µ σ 2 ! (A.4) Proposition A.4.2. L’histogramme de la loi normale est la “courbe en cloche” bien connue de la Fig.A.2. Insistons sur le fait que P r (Z = z0 ) est nulle, tandis que P r (Z ∈ [a, b]) = Rb f (t) dt = F (b) − F (a) : la probabilité correspond à la surface sous la courbe (et non a à la hauteur). 0.4 –3 a b 3 Fig.A.2 – La courbe en cloche. Proposition A.4.3. Résultat. Pour une variable normale, on a E (x) = µ et var (x) = σ 2 . La variable de Gauss z est donc la variable réduite associée à la variable normale x. Exercise A.4.4. Que valent P r (Z < 0), P r (2 < Z < 3), P r (|Z| < 1.5), P r (Z < −2 ou 2 < Z) ? Exercise A.4.5. Utiliser les tables de la fonction de distribution de la variable normale réduite pour déterminer z tel que P r (Z < z) = 0.9625, puis P r (−z < Z < z) = 0.9625 puis P r (0 < Z < z) = 0.35 et enfin P r (−2 < Z < z) = 0.50. Remark A.4.6. règle des sigmas. On a les approximations suivantes : P r (|Z| < 1) ≈ 68% ≈ 32 , P r (|Z| < 2) ≈ 95%, P r (|Z| < 2.5) ≈ 99% et P r (|Z| < 3) ≈ 0.997. Annexe B Tableau de contingence B.1 Distribution bivariée, distributions "à la marge" Definition B.1.1. On appelle "tableau de contingence" une certaine façon de conduire les calculs de régression affine pour une distribution groupée, i.e. une distribution où les données de chaque sorte (les x et les y) ont été regroupées en classes. 1. Nous allons suivre l’exemple donné par le tableau ci-dessous : ↓x y→ 1 2 3 ]0, 2] ]2, 4] ]4, 6] 4 5 2 8 7 3 2 2 1 (a) Le caractère x est mesuré par des valeurs isolées (caractère discret), les y sont mesurés par des intervalles (caractère continu, discrétisé pour les besoins de la mesure, ou bien par raison de simplification du recensement) (b) Nous indexons les x par la lettre j et ici j ∈ {1, 2, 3}. Nous indexons les y (plus précisément : les centres de classes) par la lettre k et ici k ∈ {1, 2, 3}. Ainsi y2 = 3 (il serait plus correct d’écrire ye2 = 3). (c) L’effectif total se note N (ici N = 34) et l’effectif de chaque case se note njk . Ainsi n1;3 = 2 veut dire que le recensement a trouvé, dans la population Ω, 2 individus tels que x = 1 et 4 < y ≤ 6. 2. Les deux distributions marginales s’obtiennent en augmentant le tableau d’une ligne et d’une colonne. ↓x y→ 1 2 3 n∗k ]0, 2] ]2, 4] ]4, 6] 4 5 2 8 7 3 2 2 1 14 14 6 45 nj∗ 11 18 5 34 46 B.2 B. Tableau de contingence Méthode de calcul Algorithm B.2.1. Calcul effectif. Dans le cas d’une distribution groupée, il suffit d’ajouter quelques lignes et colonnes au tableau de distribution. La redondance de certains calculs P est volontaire (cela permet de vérifier en cours de route). On remarquera P que la ligne de vérification du calcul de j k xj njk , mais j xj njk n’est pas seulement un élément P un élément indispensable pour le calcul de j k xj yk njk . Example B.2.2. : Dans l’exemple ci-dessus, il vient : ↓x y→ 1 2 3 n∗k Pyk n∗k j xj njk P yk j xj njk ]0, 2] ]2, 4] ]4, 6] 4 5 2 8 7 3 2 2 1 14 14 6 14 42 30 26 25 11 26 75 55 nj∗ 11 18 5 34 xj nj∗ 11 36 15 P k yk njk 29 44 13 xj P yk njk 29 88 39 k 86 62 156 Example B.2.3. Et l’on obtient : moy (x) = 62/34 ≈ 1.82,moy (x2 ) = (12 × 11 + 22 × 18 + 32 × 5)÷ 2 − 62 ≈ 0.44. 34 = 128/34 et donc var (x) = 128 34 34 Et de même moy (y) = 86/34 ≈ 2.53, moy (y 2 ) = (12 × 14 + 32 × 14 + 52 × 6) ÷ 34 = 86 2 290/34 et var (y) = 290 − ≈ 2.13. 34 34 86 cov − 62 ≈ −0.024. De là α = var(x) ≈ −0.055 et Enfin moy (x y) = 156/34, d’où cov 156 34 34 34 la droite de régression est yprev ≈ 2.13 − 0.055 (x − 1.82). Annexe C Deux lois utiles pour les processus d’attente C.1 Loi de Poisson Definition C.1.1. Loi de Poisson. X = P oiss (m) est P r (K = k) proportionnel à mk . k! Proposition C.1.2. Formules : P r (K = k) = mk exp (−m) ; E (K) = m ; var (K) = m k! Exercise C.1.3. Tester numériquement ces formules pour m = 2. Les démonter dans le cas général. Calculer les moments et les moments centrés correspondants. Proposition C.1.4. Si l’on a n p = m constant et n → ∞ dans la loi binomiale, la limite est la loi de Poisson. Proposition C.1.5. Règle pratique : on approxime Bin (n, p) par P oiss (n p) lorsque n ≥ 30 et p ≤ 0.1. 0.18 0.3 0 0 0 5 10 0 5 10 15 Fig.C.1 – Loi de Poisson m = 1 et m = 5. Exercise C.1.6. Quelle est la loi de la somme de deux variables de Poisson indépendantes ? 47 48 C.2 C. Deux lois utiles pour les processus d’attente Loi exponentielle Definition C.2.1. Loi exponentielle : P r (x ≤ X ≤ x + dx) ∝ exp (−λx) dx. Proposition C.2.2. Formules f (x) = λ exp (−λx) ; E (X) = 1 1 ; var (X) = 2 λ λ Exercise C.2.3. Retrouver les résultats énoncés Proposition C.2.2. Exercise C.2.4. Déterminer les quartiles d’une loi exponentielle, c’est à dire les valeurs correspondant à F (x) = 0.25, 0.5, 0.75. C.3 Inter-arrivées exponentielles Exercise C.3.1. Des clients arrivent un par un dans une file d’attente. On appelle A (n) le temps qui sépare les arrivées des clients n et n + 1. On suppose que les A (n) sont des variables indépendantes, toutes distribuées selon la même loi exponentielle de paramètre λ. Montrer que la loi du nombre K de clients arrivant par unité de temps est une loi de Poisson. En quoi le produit E (A) × E (K) est-il remarquable ? Exercise C.3.2. Les autobus en bas de chez vous passent de façon aléatoire, les temps de passage entre deux bus étant des variables de Poisson i.i.d. (indépendantes et identiquement distribuées) de paramètre λ. Vous descendez à l’arrêt de bus de façon aléatoire, avec une probabilité uniforme. Quelle est la distribution de votre temps d’attente ? Calculer en particulier la valeur moyenne de l’attente. Bibliographie Natrella M. Handbook of statistical methods. In C. Croarkin and P. Tobias (eds.), 2006 nist/sematech e-Handbook (NIST), revised 2006 ed. (1963). http://www.itl.nist. gov/div898/handbook/. 1.3.2 49