Capes-Licence de mathématiques 2009/2010 Statistique descriptive A Série discrète Soit X un caractère statistique discret dont la distribution est donnée par le tableau ci-dessous. Valeurs prises par X Effectifs x1 n1 ... ... xp np Définition P 1 = nNi . a) N = pi=1 ni désignant l’effectif total, on définit pour tout i ∈ [1..p] la ie fréquence par fiP b) La probabilité associée à cette distribution est la probabilité PX définie sur R par PX = pi=1 fi δxi . Pp c) La moyenne x de la série est prise égale à E(PX ) = i=1 fi xi et la variance σx2 égale à V (PX ) = p X i=1 p 1 X fi (xi − x) = ni x2i − x2 . N i=1 2 Définition 2 ( Médiane) L’ensemble des médianes de la série, tel qu’il est défini en statistique descriptive, coïncide avec celui de la probabilité PX . On peut encore définir cet ensemble de la manière suivante. Définition 3 (Fonction de répartition) La fonction de répartition des fréquences cumulées de la série statistique discrète (x1 , n1 ), ..., (xp , np ) P est par définition est la fonction de répartition F de la probabilité P = ki=1 fi δxi ; F vérifie : i) si x ∈] − ∞, x1 [ F (x) = 0 ii) si x ∈ [xk , +∞[ F (x) = 1 iii) si x ∈ [xi , xi+1 [ F (x) = Fi , pour i = 1, ..., p − 1. Définition 4 1) L’ensemble des médianes d’une suite x1 ≤ x2 ≤ ... ≤ xp est l’ensemble des points où l’application P f (x) = pi=1 |x − xi | atteint son minimum. 2) PpL’ensemble des médianes d’une série (x1 , n1 ), ..., (xp , np ) est l’ensemble des points où l’application f (x) = i=1 ni |x − xi | atteint son minimum. On peut aussi en donner la définition équivalente suivante. Définition 5 a) si n = 2p + 1, avec p ∈ N, l’ensemble des médianes est le singleton {xp+1 } b) si n = 2p, avec p ∈ N∗ , l’ensemble des médianes est l’intervalle [xp , xp+1 ]. 1 Remarque 6 La définition 1 est à rapprocher de la constatation suivante : la xn = n1 (x1 + x2 + ... + xn ) Pmoyenne n d’une suite (x1 , ..., xn ) est le réel qui minimise l’application g(x) = i=1 (x − xi )2 . Remarque 7 Lorsque l’ensemble des médianes est un intervalle [a, b], avec a < b, il est fréquent d’appeler médiane de cet intervalle. le milieu a+b 2 Remarque 8 L’ensemble des médianes de la série statistique du caractère discret X ci-dessus coïncide avec l’ensemble des médianes de la suite x1 , x1 , ..., x1 , x2 , ..., x2 , ..., xp , où chaque xi est répété ni fois. B Série continue Soit une série statistique d’un caractère continu X dont la distribution figure ci-dessous. Classes Effectifs [a0 , a1 [ n1 .... .... [ap−1 , ap [ np A partir ces données on pose les définitions suivantes : Pde p - N = i=1 ni est l’effectif total - pour tout i ∈ [1..p] fi = nNi est la ie fréquence - Ni = n1 + ... + ni est le ie effectif cumulé et Fi = f1 + ... + fi = - xi = a1−12+ai est le ie centre de classe - li = ai − ai−1 est la ie étendue - hi = flii est la ie fréquence corrigée Ni N est la ie fréquence cumulée 1) Histogramme P On appelle densité de probabilité associée à la série statistique la fonction f = pi=1 hi 1[ai−1 ,ai [ R Cette fonction est continue à droite et vérifie R f (x)dx = 1. L’ensemble des rectangles construits à partir du graphe de f s’appelle l’histogramme des fréquences de la distribution. 2) Moyenne et variance P On introduit les deux probabilités suivantes : P = f m1 et Q = pi=1 fi δxi . a) La moyenne x de la série (telle qu’elle est définie en statistique descriptive ) coïncide avec p p X 1 X EP = EQ = n i xi = f i xi . N i=1 i=1 b) La variance σx2 de la série coïncide avec VQ= p X i=1 p 1 X fi (xi − x) = ni x2i − x2 . N i=1 2 2 Remarque 9 En général V P 6= V Q. Si toutes les classes possèdent la même étendue l, on a l’égalité VP =VQ+ l2 12 ( correction de Sheppard ). 3) Fonction de répartition a) Soit F la fonction de répartition des fréquences cumulées de la série statistique continue ci-dessous. [ap−1 , ap [ np P Par définition F est la fonction de répartition de la probabilité P = pi=1 fi Uai−1 ai , où Ua,b désigne la loi uniforme sur l’intervalle [a, b]. F est continue et affine par morceaux, et vérifie : i) si x ∈] − ∞, a0 ] F (x) = 0 ii) si x ∈ [ap , +∞[ F (x) = 1 P iii) F (ai ) = Fi pour tout indice i = 1, ..., p − 1, où Fi = ik=1 fk est la iime fréquence cumulée. Classes Effectifs C [a0 , a1 [ n1 [a1 , a2 [ n2 ... ... Quantiles Définition 10 a) Soit P une probabilité sur R de fonction de répartition F (pour tout réel t F (t) = P (] − ∞, t]). Soit α un réel appartenant l’intervalle ]0, 1[. On appelle quantile (ou fractile) de P d’ordre α tout réel ν vérifiant : P (] − ∞, ν]) ≥ α et P ([ν, +∞[) ≥ 1 − α, ou de façon équivalente vérifiant les deux conditions : F (ν) ≥ α et F (ν−) ≤ α. b) Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, F, P ). On appelle quantile de X d’ordre α ∈]0, 1[ un quantile de PX d’ordre α. Un quantile de X d’ordre α est donc un réel ν vérifiant les deux conditions : P (X ≤ ν) ≥ α et P (X ≥ ν) ≥ 1 − α. Propriété 11 L’ensemble des quantiles d’ordre α d’une probabilité P sur R est un intervalle fermé borné non vide. Lorsque cet ensemble est de la forme [a, b], avec a < b, on convient parfois de dire que le quantile d’ordre α est le centre (a + b)/2 de cet intervalle. On peut également convenir de le prendre égal à a, en accord avec la valeur G(α) de la fonction quantile G de X en α ; voir feuille Simulation. Définition 12 a) Le quantile d’ordre 14 s’appelle le premier quartile ; le quantile d’ordre 42 = 12 est la médiane ; le quantile d’ordre 43 s’appelle le troisième quartile. b) Pour tout i ∈ [1..9], le quantile d’ordre 10i s’appelle le iime décile ; il est noté Di . i s’appelle le iime centile,noté Ci . c) Pour tout i ∈ [1..99], le quantile d’ordre 100 3 Détermination des quantiles des séries discrètes 1) Soit F la fonction de répartition des fréquences cumulées d’une série discrète (x1 , n1 ), ..., (xk , nk ), et soit α ∈]0, 1[. a) S’il existe un indice i tel que F (xi ) = α, l’ensemble des quantiles d’ordre α de la série est l’intervalle [xi , xi+1 ]. b) Sinon le quantile d’ordre α de la série est la valeur xi vérifiant F (xi−1 ) < α < F (xi ). 2) Pour une série discrète dont les valeurs ne sont pas regroupées x1 ≤ x2 ≤ ... ≤ xn , le quantile d’ordre α ∈]0, 1[ de la série est donné par la règle suivante : a) si nα ∈ / N le quantile d’ordre α est x[nα]+1 ([nα] désigne la partie entière de nα) b) si q = nα ∈ N l’ensemble des quantiles est l’intervalle [xq , xq+1 ]. Remarque 13 Le cas 1) se ramène au cas 2) en considérant la série x1 ≤ ... ≤ x1 ≤ x2 ≤ ... ≤ x2 ≤ ... ≤ xk , où la valeur xi est répétée ni fois. Inversement le cas 2) se ramène au cas 1) en regroupant les valeurs égales. Détermination des quantiles des séries continues Soit F la fonction de répartition des fréquences cumulées de la série statistique continue ci-dessous. Classes Effectifs [a0 , a1 [ n1 [a1 , a2 [ n2 ... ... [ap−1 , ap [ np Soit α ∈]0, 1[ ; un quantile d’ordre α de la série est un réel ν qui vérifie F (ν) = α ; autrement dit l’ensemble des quantiles d’ordre α est l’intervalle F −1 ({α}). Exemple On considère la série statistique suivante. Valeurs Effectifs Effectifs cumulés 10 10 10 15 12 22 20 34 56 25 21 77 30 12 89 35 9 98 40 7 105 105/10 = 10, 5 , le premier décile est D1 = 15 105/4 = 26, 25 , le premier quartile est Q1 = 20 105/2 = 52, 5 , la médiane est µ = 20 3 105 = 78, 75 , le troisième quartile est Q3 = 30 4 9 105 = 94, 5 , le neuvième quartile est D9 = 35 10 D Boîte à moustaches Il n’y a pas de définition unique des boîtes à moustaches. La définition adoptée dans l’enseignement secondaire est la suivante : - la limite inférieure est le premier décile D1 - la base inférieure de la boîte est le premier quartile Q1 - la boîte est divisée en deux par la médiane - la base supérieure de la boîte est le troisième quartile Q3 - la limite supérieure est le neuvième décile D9 . On fait parfois figurer les valeurs plus petites que D1 et plus grandes que D9 . 4 Remarque Les valeurs D1 et D9 sont parfois remplacées par Q1 − 32 (Q3 − Q1 ) et Q3 + 32 (Q3 − Q1 ). 5