Analyse descriptive univariée d'un échantillon statistique I. Introduction • Plan classique d'une étude : ◦ Recueil des données (libre observation ou expérience). ◦ Analyse descriptive des données. ◦ Inférence statistique (recherche d'associations, prédiction...). • Plusieurs type de variables (cf plan) : ◦ Qualitatives. ▪ Non ordonnées. ▪ Ordonnées. ◦ Quantitatives. ▪ Discrètes. ▪ Continues. ◦ Cas particuliers. ▪ Binaires. ▪ Rangs. • Pour chacun de ces types nous verrons. ◦ Définition. ◦ Présentation des données. ◦ Représentation graphique. ◦ Calculs des paramètres. II. Variables qualitatives non ordonnées A. Définition • • • • Variable non quantifiable décrivant une qualité d'un individu à l'aide de k modalités. Les modalités forment donc un S.C.E. (système complet d’événements). Variable « nominale » si k > 2. Exemple : couleur des cheveux. blond brun blanc Ensemble S B. Présentation des données • • Tableau de contingence. Une ligne pour chacune des k modalités (i de 1 à k). Modalité Effectif xi Fréquence ni fi=ni/N Σ=N Σ=N C. Représentation graphique • • Diagramme en secteur = camembert. Proportionnalité entre : ◦ La fréquence fi. ◦ L'effectif ni. ◦ L'angle au centre (en degrés : α = 360°*fi). ◦ La surface du secteur. Blanc 0,2 Brun 0,5 Blond 0,3 D. Calcul de paramètres • • Un seul paramètre : le mode. Mode = modalité ayant le plus grand effectif. Exercice 1. ◦ Couleur des cheveux chez cents individus. Couleur xi ni fi Bruns 50 0,5 Blonds 30 0,3 Blancs 20 0,2 Σ=N=100 Σ=1 Mode = ''bruns''. III. Variables qualitatives ordonnées = variables ordinales • Les modalités ont un ordre. Brevet Variable = niveau d'étude Bac Licence Master • • Comportement identique aux variables nominales. Tableau : on peut trier les lignes par x croissants, ajouter l'effectif cumulé et calculer la médiane (cf. post). IV. Variables quantitatives discrètes A. Définition • • Variable numérique ne pouvant prendre qu'un nombre fini de valeurs. Souvent issues d'un décompte. • Exemple. ◦ Nombre d'enfants dans une famille. ◦ Nombre de rechutes d'une maladie. B. Présentation des données • • • Tableau de contingence. Une ligne pour chacune des k valeurs différentes triées de X (i de 1 à k). Modalité Effectif Effectif cumulé Fréquence i ni Ni = Σ nj fi=ni/N F i = Σ fj xk nk Σ=N N Ø fk Σ=1 1 Ø j=1 cf Exercice 2A. 1. Représentation graphique Rappels préalables, cas discret. ◦ f(x) est la densité de probabilité de X. ▪ f(x0) = P(X=x0) ▪ ∀ x, 0 ≤ f(x)≤ 1 k ▪ ∑ f(xi) =1 i=1 ◦ F(x) est la fonction de répartition de X. ▪ F(x0) = P(X=x0) ◦ F(x) est la primitive de f(x) qui vérifie 3 propriétés. ▪ F(x) croissante sur ]-∞;+∞[ ▪ Lim x→-∞ F(X) = 0 ▪ Lim x → +∞ F(X) = 1 2. Diagramme en bâtons • • • i xi C. Représentation graphique • Fréquence cumulée Diagramme en bâtons. Polygone des effectifs. Attention : ◦ Interdiction d'élargir les barres. ◦ Échelle réellement quantitative en X. ◦ Polygone en pointillés. j= 1 Fi Polygone des effectifs => Estimation graphique de F(x). fj X Xj Xi 3.Diagramme cumulatif • • • Diagramme cumulatif (en fréquences). Fournit la médiane graphiquement (cf. exercice). Schéma. ◦ Y : fréquence cumulée. 1 Fj Fi 0 Xi • Xj X cf Exercice 2B. D. Calcul des paramètres • Paramètres calculables. ◦ Minimum, maximum. ◦ Mode (idem qualitatif). ◦ Médiane. ◦ Quantiles. ◦ Moyenne, variance et écart type. cf. ci-après 1. Médiane • Médiane x~ : ◦ Valeur seuil qui partage l'échantillon en 2 sous-groupes d'effectif identique. ▪ Si N impair : soit N=2p+1, médiane = xp+1 ▪ Si N pair : soit N=2p, médiane = (xp+xp+1)/2 ◦ Robuste aux valeurs extrêmes. 2. Quantiles • Quartiles. ◦ Les 3 valeurs qui partagent l'échantillon en 4 sous-groupes d'effectif identique. ◦ Distance inter-quartile = Q3-Q1 ◦ Médiane = Q2 (2e quartile). Percentiles. ◦ Les 99 valeurs qui partagent l'échantillon en 100 sous-groupes d'effectif identique ◦ Médiane = 50ème percentile. Quantiles. ◦ Terme générique. • • 1 0,75 0,5 0,25 0 Q1 Q2 Q3 x Distance inter-quartile 3. Moyenne • • • La moyenne arithmétique. k ▪ x =E(x)= ∑ xifi i=1 Contrairement à la médiane. ◦ Sensible aux valeurs extrêmes. ◦ Nombreux tests et calculs réalisables. En moyenne, les écarts à la moyenne sont nuls k ◦ E (x-x) = ∑ (xi-x) . fi = 0 i=1 4. Variance et écart type • Variance et écart type en théorie... ◦ Variance σ2 = E [(x-x)2] k =Σ (x-x)2 .fi i=1 k k σ2 = E(X2) – [E(X)]2= ( ∑ xi2. fi) - (∑ xi fi)2 i=1 i=1 • Écart type σ= √(σ²) • Variance et écart type en pratique sur un échantillon (cf. cours suivant). ◦ Estimateur biaisé de l'écart type. Sech se calcule comme σ mais sur l'échantillon. ◦ s =Estimateur non biaisé de l'écart type. =ds (déviation standard). =sd (standard deviation). S = Sech √ N / (N – 1) • Exercice 2C et 2D. V. Variables quantitatives continues A. Définition • • • Ce sont des variables numériques pouvant prendre un nombre infini de valeurs. À chaque nombre exact est associée une probabilité nulle : ∀x0 , P(X=x0) = 0 Exemples : ◦ Taille d'un individu. ◦ Poids d'un individu. B. Présentation des données • • Discrétisation = mise en classes jointives et mutuellement exclusives. Une ligne pour chacune des k classes triées de X (i de 1 à k) Classe Centre de classe Effectif ... ... (Xi;Xi+1) Ci ... ... Ci = (Xi+Xi+1)/2 Effectif cumulé Fréquence Fréquence cumulée C. Représentation graphique 1. Rappels théoriques • Rappels préalables, cas continu : ◦ f(X) est la densité de probabilité de X Attention, définition différente car : ∀x0 , P (X = x0) = 0 b donc f(X) définie telle que : ∫ f(x) *dx = P(a<X<b) x=0 ◦ F(x) est la fonction de répartition de X : définition similaire au cas discret. x F(x0) = P(X<x0) = ∫ f(t) * dt O t = -∞ • Rappels sur la densité de probabilité f(x) : Probabilités données par l'aire sous la courbe et non par la hauteur de la courbe. Aire totale sous la courbe = 1 dx f(X0) f(X0) X0 a P(X=x0) = f(x0).dx = 0 b P(a<X<b) = ∫ f(x).dx = F(b)-F(a) 2. Histogramme • • • • • Histogramme en fréquence (et non en effectif !!!). Probabilité proportionnelle à la surface du rectangle. Surface totale = 1. Polygone des fréquences. Possibilité de classes d’inégales largeurs, tant que la surface est conservée. => Estimation graphique de f(X). 40 30 20 10 0 2 • • • • • • 3 4 5 6 7 Histogramme en effectif. Toléré en analogie avec les diagrammes en barres. Effectif de la classe est proportionnelle à la hauteur de la barre. Somme des hauteurs = N (effectif). Polygone des effectifs. Exige des classe égales. => Ne représente rien du tout. Polygone des effectifs. 3. Diagramme cumulatif • Diagramme cumulatif (en fréquence) : ◦ Idem cas discret. ◦ Fournit graphiquement la médiane et les quantiles. => Estimation graphique de F(X). Exercice 3. D. Calcul de paramètres 1. Rappels théoriques • Rappel théorique : (formule générale, pas sur l’échantillon). ◦ Moyenne ( somme des valeur * probabilité ): ▪ E(X) = ∫ x.f(x).dx ◦ Moyenne sur un intervalle ]a ;b[ : soit G(X) une primitive de X.f(X) ▪ E]a;b[(X) = [G(X)]ba = G(b) - G(a) ◦ Variance (moyenne des écarts carrés à la moyenne) : ▪ Var (X) = ∫ (x – µ)2 .f(x) .dx = E(X2) – µ2 = (∫x2 .f(x) .dx) - µ2) 2. En pratique • En pratique sur un échantillon : ◦ Les même paramètres calculables que précédemment, sauf le mode. ◦ Si données détaillées disponibles, utiliser les même formules (avec fi=1/N). ◦ Si données agrégées par classes, on utilise les centres de classes Ci. • • Le mode n'est pas calculable. Description d'une courbe f(X) : unimodale bimodale multimodale VI. Cas particuliers A. Variable binaires • Cas des variable qualitatives à deux modalités. ◦ Exemple : « sexe » {F;H}. → est identique à « est masculin ? » {0;1}. = expérience de Bernoulli. ◦ Selon les besoins, utilisables comme des quantitatives. B. Les variable de rang • • • Cas particuliers de variables quantitatives discrètes : 1°, 2°, … , N°. Avec ou sans ex-æquo. Non traités dans ce cours, les graphiques et paramètres précédents ne s'appliquent pas.