Complément statistique Gisement éolien P r. M. ABID Statistique 1 Définitions Encyclopédia Le mot statistique désigne à la fois un ensemble de données d'observations et l'activité qui consiste dans leur recueil, leur traitement et leur interprétation. Définition et objectif Ensemble de techniques permettant d’obtenir de l’information à partir d’observations nombreuses Permet de se renseigner sur des faits pour prendre les meilleurs décisions Statistique qualitative Les valeurs du caractère étudié (modalités) sont qualitatives. On ne peut pas les mesurer ou les ordonner. Exemples : destination des voyages, Couleurs des voitures, etc. Statistique quantitative Les valeurs du caractère étudié sont quantitatives. On peut les ordonner, cumuler les fréquences, calculer des moyennes, etc. Exemples : Valeurs discrètes : Nombre de jours d’absence dans le service « Achats » Valeurs continues : Les salaires des employés dans une entreprise Gisement éolien P r. M. ABID Statistique 2 Définitions Types de variables Soit une grandeur physique X dont la valeur exacte est x0. n mesures conduisent à des valeurs x1,x2,… x n (cas des mesures quantitatives). La grandeur X est appelée variable statistique. Les valeurs qu’elle peut prendre sont notées x1,x2, … Variables statistiques Variables qualitatives Variables quantitatives représentées par des quantités. représentées par des qualités. Les variables qualitatives s’expriment en modalités. Les modalités sont comme des choix de réponses aux variables étudiées. Les variables quantitatives s’expriment en valeurs. Les valeurs représentent les choix de réponses aux variables quantitatives. l’âge, le poids la taille la vitesse sexe, programme, destinations de voyages métiers Gisement éolien P r. M. ABID Statistique 3 Définitions Types de variables Variables qualitatives Variables qualitatives nominales représentées par des noms. il n’y a aucun ordre précis. Ce sont seulement des mots dans le désordre et peu importe l’ordre dans lequel on le présente. Sexe : féminin ou masculin. Endroit : ville, village , montagne, plaine, colline,…… langues et dialectes : arabe, français, espagnol, judéo-marocain, hassaniyya, tamazight, rifain, tachelhit, darija, … Gisement éolien P r. M. ABID Variables qualitatives ordinales représentées par des noms comparatifs. Les variables qualitatives ordinales sont des variables qui contiennent un ordre. Les variables qualitatives ordinales sont très souvent des degrés de satisfaction, d’approbation, etc... Pour un fournisseur, les différentes modalités seraient : très satisfait, satisfait, insatisfait, très insatisfait. Pour une population : adulte, adolescent, enfant Notes alphabétiques Statistique 4 Définitions Types de variables Variables quantitatives Variables quantitatives discrètes Variables quantitatives continues Ce sont des valeurs très nombreuses dont l’énumération serait fastidieuse. Il est donc préférable de les exprimer en classe de largeur égale. Ce sont des valeurs que l’on peut énumérer, il est inutile d’utiliser des classes pour les exprimer. Par exemple : - le nombre de personnes dans le ménage - le nombre de cellulaires - le nombre de présence au centre commercial par mois - le nombre d’éoliennes - le nombre de …. Gisement éolien P r. M. ABID Statistique Par exemple : - le poids est une variable quantitative continue puisqu’il est possible de peser autant 4lbs à 600 lbs -Température - poids - courants -vitesses 5 Définitions objectif de la statistique appliquée aux mesures objectif Donner une estimation de la différence maximale entre la mesure x et la vraie valeur x0 . On fixe au préalable un risque d’erreur, les résultats sont alors donnés en fonction de ce risque. Pour un nombre infini de mesures (sans présence d’erreur systématique), on devrait en théorie obtenir la vraie valeur x0 Erreur systématique : Une erreur est systématique lorsqu'elle contribue à toujours surévaluer (ou toujours sous-évaluer) la valeur mesurée. Erreur aléatoire : Une erreur est aléatoire lorsque, d'une mesure à l'autre, la valeur obtenue peut être surévaluée ou sous-évaluée par rapport à la valeur réelle. Pour un nombre infini de mesures (sans présence d’erreur systématique), on devrait en théorie obtenir la vraie valeur x0 Echantillon C’est série limitée de résultats employés pour l’estimation La statistique : extrapole les résultats obtenus pour un nombre fini de mesures. Gisement éolien P r. M. ABID Statistique 6 Exemples Statistiques à un caractère qualitatif : paramètres de position Ex: caractère étudié : destination des voyages (On ne peut pas les mesurer ou les ordonner.) Présentation des données: tableau par catégorie avec effectifs Destination (observée) Effectifs (ei) (nombre d’observations) Fréquences (fi) (fréquences d’observations) Pourcentages (pi) (Pourcentages d’observations) Europe 2300 0,22 22% Afrique 1200 0,11 11% Asie 850 0,08 8% Amérique du Nord 4800 0,46 46% Amérique du Sud 1100 0,11 11% Total 10250 1 100% On regroupe les résultats identiques ou appartenant à une même classe. Les résultats sont présentés non pas sous forme de liste (peu pratique), mais sur un graphique appelé histogramme des effectifs. n L’effectifs total = somme des effectifs et = Gisement éolien P r. M. ABID i i =1 fréquence = effectif/ effectif total pourcentage = effectif × 100 ∑e pi = 100 fi Statistique n ei fi = fi = 1 ∑ n et i =1 ∑ pi = 100 i =1 7 Exemples Statistiques à un caractère qualitatif : paramètres de position Représentation graphique en camembert destination préférée Un diagramme circulaire (diagramme « en Amérique du Sud camembert »). Il permet de représenter un petit 11% nombre de valeurs par des angles proportionnels à ces Europe 23% valeurs. Afrique Le graphique est utilisé pour représenter les séries Amérique 11% du Nord statistiques non chronologiques . Ce graphique représente les 47% Asie fréquences exprimées en valeurs relatives proportionnelles aux 8% aires des secteurs correspondants. Représentation graphique en colonnes 6000 Les diagrammes en colonnes sont fréquents dans les journaux ou les comptes-rendus statistiques. Les colonnes ont toutes la même largeur et sont espacées de manière régulière. Les diagramme à bandes, qu’on appelle aussi diagrammes à barres ou histogrammes, servent à comparer différents éléments par rapport à l’une de leurs caractéristiques. Gisement éolien P r. M. ABID Statistique 5000 4000 3000 2000 1000 0 Europe Afrique Asie Amérique Amérique du Nord du Sud 8 Exemples Statistiques à un caractère quantitatif : paramètres de position discret : Nombre de jours d’absence des étudiants en ER (On peut les ordonner, cumuler les fréquences, calculer des moyennes, etc.) Abscences des étudiants Nombre d’étudiants concernés Fréquence: fi (%) 0 5 19 1 8 30 2 6 22 3 3 11 4 2 7 5 1 4 6 2 7 9 Nombre d’étudiants concernés Nombre de jours d’absence 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Nombre de jours d’absence Données ordinales et quantitatives discontinues sont ordonnées (du plus petit au plus grand) suivant un choix prédéfinis les effectifs cumulés permettent de déterminer le nombre d’observations ayant des valeurs inférieures ou égales à xi Gisement éolien P r. M. ABID Statistique 9 Exemples Statistiques à un caractère quantitatif : paramètres de position Continu : Les notes des étudiants en ER • Les valeurs sont mises en classes. • Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée. Notes ni Σni % Σ% Moins de 5 2 2 5,56 5,56 [5 – 6[ 4 6 11,11 16,67 [6 – 8[ 5 11 13,89 30,56 [8 – 10[ 10 21 27,78 58,33 [10 – 16[ 12 33 33,33 91,67 16 et plus 3 36 8,33 100,00 • Le regroupement des valeurs revient à assimiler toutes les observations d’une même classe à un caractère unique : celui du point médian • Perte d’informations d’autant plus grande que l’intervalle de la classe est étendu Gisement éolien P r. M. ABID Statistique 10 Exemples Statistiques à un caractère quantitatif : paramètres de position Continu : Les notes des étudiants en ER • La distribution des effectifs est souvent représentée par un histogramme . 14 12 Chaque classe est représentée par un rectangle dont la base est proportionnelle à l’amplitude de la classe et la hauteur à l’effectif 10 Effectif • Notes des étudiants 8 6 4 • Leurs valeurs extrêmes sont appelées bornes des classes. 2 0 Moins de 5 [5 – 6[ • Les classes sont mutuellement exclusives. • L'amplitude de la classe ou intervalle ou module de classe : ∆= borne supérieure - la borne inférieure. [6 – 8[ [8 – 10[ [10 – 16[ 16 et plus Notes • Le point central ou encore point médian est situé à mi chemin entre les bornes. Ci = Binfi +∆i/2 • Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !... Gisement éolien P r. M. ABID Statistique 11 Exemples Statistiques à un caractère quantitatif : paramètres de position Continu : pesée • Dans un histogramme La surface totale de l’histogramme est proportionnelle au nombre total de résultats 41 39,2 40,6 40,5 40,7 40,2 41,2 42,1 41,2 41,6 41,5 41,3 41,6 40,9 42,3 40,7 On regroupe les mesures dans des classes d’amplitudes 1g 9 8 7 6 Effectif • 40,4 39,8 5 4 3 2 1 0 [ 39, 40[ [ 40, 41[ [ 41, 42[ [ 42, 43[ Classe Gisement éolien P r. M. ABID Statistique 42,9 40,1 Poids Classe effectif 39,2 [ 39, 40[ 2 39,8 40,1 40,2 40,4 40,5 [ 40, 41[ 8 40,6 40,7 40,7 40,9 41,0 41,2 41,2 41,3 [ 41, 42[ 7 41,5 41,6 41,6 42,1 42,3 [ 42, 43[ 3 42,9 12 Exemples Statistiques à un caractère quantitatif : paramètres de position Continu : Les notes des étudiants en ER • • • Poids [ 39.0, 40.0[ [ 40.0, 40.5[ [ 40.5, 41.0[ [ 41.0, 41.5[ [ 41.5, 42[ [ 42, 43[ On regroupe les mesures dans des classes d’amplitudes différentes On se ramène à la plus petite amplitude on divise la hauteur du rectangle par le rapport de l’amplitude de la classe à l’amplitude élémentaire. Autrement dit, une classe deux fois plus grandes, aura une hauteur deux plus petite Répartion des notes [ 39.0, 40.0[ [ 40.0, 40.5[ [ 40.5, 41.0[ [ 41.0, 41.5[ [ 41.5, 42.0[ [ 42.0, 43.0[ effectif 2 3 5 4 3 3 10% 15% 15% 20% 15% 25% Classes 2 fois plus larges que la classe élémentaire. Sa hauteur est donc divisée par 2 Gisement éolien P r. M. ABID Statistique 13 Exemples Statistiques à un caractère quantitatif : paramètres de position Continu : • L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. • En cas de classes d'amplitudes différentes, la densité de fréquence di = ni/ ∆i permet de comparer les effectifs ou les fréquences d'une classe à l'autre. • la densité de fréquence est utilisée pour tracer l’histogramme. Gisement éolien P r. M. ABID Notes ∆i Ci ni Σni di % Σ% Moins de 5 5 2.5 2 2 0.4 5,56 5,56 [5 – 6[ 1 5.5 4 6 4 11,11 16,67 [6 – 8[ 2 7 5 11 2.5 13,89 30,56 [8 – 10[ 2 9 10 21 5 27,78 58,33 [10 – 16[ 6 13 12 33 2 33,33 91,67 16 et plus 4 18 3 36 0.75 8,33 100,00 Statistique 14 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position La tendance centrale : En statistiques, la tendance centrale désigne le point autour duquel sont plus ou moins regroupées les différentes valeurs d'une variable quantitative mesurées dans un échantillon ou issues d'une population, c'est-à-dire le « centre » autour duquel ces valeurs « tendent » à se concentrer. Le mode ou valeur dominante : Le mode d’une série statistique (Mo) est Variables X Valeurs Xi défini comme la modalité de la variable correspondant à l’effectif le plus 1 737 élevé. (peu utilisé) 2 630 Une répartition peut être unimodale ou plurimodale (bimodale, trimodale…), si deux ou plusieurs valeurs de la variable considérée émergent également. Dans le cas d'une répartition en classes d'amplitudes égales, la classe modale désigne celle qui a le plus fort effectif. La convention est d'appeler mode le centre de la classe modale. Dans notre cas le mode est Mo = 7 Gisement éolien P r. M. ABID Statistique 3 4 5 6 7 8 9 10 573 615 718 620 820 763 786 529 15 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position La médiane : La médiane (Me) d’une série est une valeur de la variable telle que 50% des observations ou individus présentent une modalité inférieure et 50% une modalité supérieure à Me La médiane (Me) est la valeur, observée ou possible, dans la série des données classées par ordre croissant (ou décroissant), qui partage cette série en deux parties comprenant exactement le même nombre de données de part et d’autre de Me La médiane (Me) est stable : il est peu sensible aux valeurs extrêmes. Lorsque le nombre d’observations est pair, la médiane n’est pas définie de façon unique. La valeur usuellement retenue est la moyenne des observations de rang n/2 et de rang n/2 + 1 (les deux valeurs centrales). Dans notre exemple X = 674. C’est une valeur non observée Gisement éolien P r. M. ABID Statistique ordre Xi 1 2 3 4 5 6 7 8 9 10 Valeurs Xi 529 573 615 620 630 718 737 763 786 820 16 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position Dans le tableau ci contre on parle de la classe médiane : c’est la classe [8 ; 12[ Notes Effectifs Effectifs cumulés [0 ; 5[ 10 10 [5 ; 8[ 8 18 [8 ; 12[ 12 30 [12 ; 15[ 11 41 [15 ; 20] 9 50 pour trouver la médiane on va interpoler M e − 8 12 − 8 = 25 − 18 30 − 18 8,0 8,5 9,0 9,5 10,0 11,0 11,5 2 2 1 2 1 3 1 La médiane Me est donc 10.33. Cela signifie que environ 50% des personnes ont eu moins de 10.33 et 50% plus de 10.33 il s’agit d’une valeur non observée, cependant dans ce cas précis nous n’avons pas le détail des valeurs observées puisque nous n’avons que les classes Cette valeur ne représente pas forcément la moyenne de la classe qui peut être différente (par exemple 09.63) Gisement éolien P r. M. ABID Statistique 17 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position La moyenne arithmétique ou moyenne empirique : La moyenne arithmétique (X) d’une série quantitative est définie par la somme des valeurs de Xi divisée par l’effectif total. (informative mais instable). n X = ∑ Xi / n i =1 Dans ce cas la moyenne est celle des données énumérées Dans le cas où les variables sont pondérées par des effectifs : la moyenne présentée ci-dessus est une moyenne arithmétique dite pondérée. n n n X = ∑ ni X i / ∑ ni = ∑ f i X i i =1 i =1 i =1 Dans le cas où les variables sont pondérées par des effectifs : la moyenne présentée ci-dessus est une moyenne arithmétique dite pondérée. Gisement éolien P r. M. ABID Statistique Variables X Valeurs Xi 1 737 2 630 3 573 4 615 5 718 6 620 7 820 8 763 9 786 10 529 18 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position Pour des données groupées en classes, les Xi sont les centres des classes ou les moyennes calculées à l’intérieur de chaque classe. La moyenne de plusieurs groupes correspond à la moyenne pondérée des moyennes pour chaque groupe Dans notre cas la moyenne est Xm = 679.1 La moyenne n’est pas toujours un indicateur précis, elle est sensible aux valeurs extrêmes. Gisement éolien P r. M. ABID Statistique 95,00 97,00 100,00 103,00 105,00 100,00 50,00 75,00 100,00 125,00 150,00 100,00 19 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position La moyenne géométrique : La moyenne géométrique ( X ) d’une série quantitative est définie g par : X g = ∏ Xi i =1 n 1 n n 1 On peut remarquer que : ln ( X g ) = ∑ ln ( X i ) n i =1 Xg ≤ X Elle est très souvent utilisée pour les données distribuées suivant une loi log normale. La moyenne géométrique est moins sensible que la moyenne arithmétique aux valeurs les plus élevées d'une série de données. Elle donne, par conséquent, une autre et meilleure estimation de la tendance centrale des données dans le cas d’une distribution à longue traine à l’extrémité supérieure de la courbe. Dans notre cas le moyenne est Xg = 672.6 Gisement éolien P r. M. ABID Statistique 20 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de position La moyenne harmonique : La moyenne harmonique ( X ) d’une série quantitative est définie h par : n Xh = On peut remarquer que : n 1 ∑ i =1 X i 1 1 n 1 = ∑ X h n i =1 X i Xh ≤ Xg Elle est en général utilisée pour calculer des moyennes sur des intervalles de temps qui séparent des événements. Dans notre cas le moyenne est Xh = 666.1 Gisement éolien P r. M. ABID Statistique 21 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion L’étendue : L’étendue, ou intervalle de variation d’une série statistique se définit, uniquement pour des variables quantitatives, comme la différence entre la plus grande et la plus petite des valeurs de la série. W = X Max − X min Dans notre cas l’étendue est W = 291 L’écart moyen absolu : se définit comme étant égal à la moyenne des valeurs absolues des différences entre les observations et leur moyenne : n ∆X = ∑ X i − X / n i =1 Dans notre cas ∆X = 85.7 L’écart médian absolu : se définit comme étant égal à la moyenne des valeurs absolues des différences entre les observations et leur médiane : n ∆M = ∑ X i − M / n i =1 Dans notre cas Gisement éolien P r. M. ABID ∆M = 85.7 Statistique ordre Xi 1 2 3 4 5 6 7 8 9 10 Valeurs Xi 529 573 615 620 630 718 737 763 786 820 22 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Quantile : Pour décrire des séries statistiques, le concept de médiane est adapté non plus pour séparer les mesures en 2 sous ensembles, mais en k. On appelle ces mesures « quantiles ». Si k = 4 on parle de quartile. Quartile : « Pour k = 4, les quantiles, appelés quartiles, sont trois nombres Q1, Q2, Q3 définis de la manière suivante : – 25% des valeurs prises par la série sont inférieures à Q1 ; – 25% des valeurs prises par la série sont supérieures à Q3 ; – Q2 est la médiane Me ; – Q3 − Q1 est l’intervalle interquar.le, il con.ent 50% des valeurs de la série. Approximation utile : – 25% dans [Xmin, Q1] ; – 50% dans [Xmin, Q2] ; – 75% dans[Xmin, Q3] ; Q1 = 7.5 Q2 = 9.5 Q3 = 10.5 Rang Série 1 4 2 5 3 7 4 8 5 8 6 9 7 10 8 10 9 10 10 11 11 13 12 16 Cette définition rend asymétrique la définition. Gisement éolien P r. M. ABID Statistique 23 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Rang n =4 p : Q1 = moyenne entre la pe et (p+1)e valeur. Q2 = moyenne entre la (2p)e valeur et la (2p+1)e valeur. Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur. n =12 : p =3 Q1 = moyenne entre le rang 3 et le rang 4. Q2 = moyenne entre le rang 6 et le rang 7. Q3 = moyenne entre le rang 9 et le rang 10. Gisement éolien P r. M. ABID Q1 = 7.5 Q2 = 9.5 Q3 = 10.5 Statistique Rang Série 1 4 2 5 3 7 4 8 5 8 6 9 7 10 8 10 9 10 10 11 11 13 12 16 24 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Rang n =4 p + 1: Q1 = (p+1)e valeur. Q2 = (2p+1)e valeur. Q3 = (3p+1)e valeur. Rang Série 1 4 2 5 3 7 4 8 5 8 6 9 7 10 8 10 9 10 10 11 11 12 12 13 13 16 n =13 : p =3 Q1 = le rang 4. Q2 = le rang 7. Q3 = le rang 10. Gisement éolien P r. M. ABID Q1 = 8 Q2 = 10 Q3 = 11 Statistique 25 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Rang n =4 p + 2: Q1 = (p+1)e valeur. Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur. Q3 = (3p+2)e valeur. n =14 : p =3 Q1 = le rang 4. Q2 = moyenne entre le rang 7 et le rang 8. Q3 = le rang 11. Gisement éolien P r. M. ABID Q1 = 8 Q2 = 9.5 Q3 = 11 Statistique Rang Série 1 4 2 5 3 7 4 8 5 8 6 9 7 9 8 10 9 10 10 10 11 11 12 12 13 13 14 16 26 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Rang n =4 p + 3: Q1 = (p+1)e valeur. Q2 = (2p+2)e valeur. Q3 = (3p+3)e valeur. n =15 : p =3 Q1 = le rang 4. Q2 = le rang 8. Q3 = le rang 12. Gisement éolien P r. M. ABID Q1 = 8 Q2 = 10 Q3 = 11 Statistique Rang Série 1 4 2 5 3 7 4 8 5 8 6 9 7 9 8 10 9 10 10 10 11 11 11 12 13 12 14 13 15 16 27 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion La variance : La variance est la somme pondérée des carrés des écarts des valeurs de la série à la moyenne. n ∑( X 2 n σ = var( X ) = i − X) 2 i =1 n n = ∑ fi ( X i − X ) 2 i =1 Cette définition de la variance n’est pas utilisée en pratique. L'inconvénient de cette définition est qu'il a tendance à sous-estimer légèrement l'écart des données par rapport à leur moyenne. La raison mathématique de ce défaut est liée à la notion de biais d'un estimateur. Un biais est une erreur qui engendre des résultats erronés. Le biais peut être lié à une erreur de conception du projet de recherche et donc à sa méthodologie. Il peut aussi être dû à une erreur d’interprétation au moment de l’analyse des résultats de la recherche. Gisement éolien P r. M. ABID Statistique 28 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion On utilise la définition suivante (Variance d’échantillonnage) n ∑( X σ n2−1 = s 2 = var( X ) = i − X) 2 i =1 n −1 La première est dite variance biaisée (Varn), la seconde est non biaisée (Varn-1). Dans notre cas l’étendue est Varn = 8698,5 et Varn-1 = 9665,0 L’écart-type : L'écart-type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par rapport à la moyenne. C'est une mesure de dispersion. : σ = ∆X = var( X ) Utilisez l’écart-type à bon escient en prenant σ = ∆X = S 2 = S L’écart-type ; σ = 93,27 , σ = s = 98,31. Gisement éolien P r. M. ABID Statistique 29 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion la distance inter-quartile : est définie comme la différence entre q1 et q3 ∆ q = q3 – q1 (148) la distance inter-quartile est une caractéristique de dispersion extrêmement robuste. le coefficient de variation : est définie comme le rapport entre l’´ecart type et la moyenne : S2 CV = X CV = 0,144766 ordre Xi 1 2 3 4 5 6 7 8 9 10 Valeurs Xi 529 573 615 620 630 718 737 763 786 820 Le coefficient de variation également nommé, écart relatif, est une mesure de la dispersion relative. Ce nombre est sans unité ; c'est une des raisons pour lesquelles il est parfois préféré à la variance pour traiter des grandeurs physiques. Le RSD (relative standard deviation) est souvent défini comme La valeur absolue du coefficient de variation exprimée en pourcentage. Gisement éolien P r. M. ABID Statistique 30 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Paramètres de forme : Moment d’ordre 3 : Le moment d'ordre 3 donne une idée de l'asymétrie d'une distribution (pour savoir si elle est centrée ou non sur la moyenne). 3 1 n m3 = ∑ ( X i − X ) n i =1 Moment d’ordre 4 : Le moment d'ordre 4 que l'on appelle le kurtosis permet de se faire une idée de "l'aplatissement" de la distribution et de savoir si l'on est plus proche d'une loi uniforme ou d'un pic. 4 1 n m4 = ∑ ( X i − X ) n i =1 Le paramètre Skewness : c’est un coefficient de dissymétrie (skewness en anglais) correspond à une mesure de l’asymétrie de la distribution d’une variable aléatoire. Il est défini par : m γ 3 = 33 S Le paramètre γ3 est nul pour une distribution symétrique. En termes généraux, l’asymétrie d’une distribution est positive si la queue de droite (à valeurs hautes) est plus longue ou grosse, et négative si la queue de gauche (à valeurs basses) est plus longue ou grosse. Dans notre : γ3 = - 0.037 Gisement éolien P r. M. ABID Statistique 31 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Le paramètre Kurtosis : En statistique, le kurtosis (du grec κυρτός : courbe, arrondi, bossu), ( coefficient d’aplatissement ), correspond à une mesure de l’aplatissement, ou a contrario de la pointicité, de la distribution d’une variable aléatoire réelle. Le kurtosis mesure, hors effet de dispersion (donnée par l’écart type), la disposition des masses de probabilité autour de leur centre, tel que donné par l’espérance mathématique, c’est-à-dire, d’une certaine façon, leur regroupement proche ou loin du centre de probabilité. Dans le cas particulier d'une loi normale, le rapport entre le moment d'ordre 4 et le moment d'ordre 2 au carré est constant et vaut 3. C'est un indicateur qui permet de savoir si la loi testée/étudiée est proche d'une loi normale. Le kurtosis est défini par γ4 = m4 −3 S4 Dans notre : γ3 = - 1.339 Gisement éolien P r. M. ABID Statistique 32 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Loi de probabilité Loi de Laplace Loi sécante hyperbolique Kurtosis normalisé 1,2 Loi normale 0 Loi du cosinus surélevé -0,593762 Loi du demi-cercle -1 Loi uniforme continue -1,2 x−µ b 2b − Πb x f ( x ) = 2 arcth e 2b 2 Loi logistique Gisement éolien P r. M. ABID f ( x) = e 3 − f ( x) = e − x−µ s f ( x) = e Statistique − x−µ − s 1 + e s 2 2 ( x−m) 2σ 2 2πσ 33 Analyse des statistiques à un caractère Caractéristiques de tendance centrale : paramètres de dispersion Loi de probabilité Symbole dans la figure Couleur dans la figure Loi de Laplace D Courbe rouge Loi sécante hyperbolique S Courbe orange Loi logistique L Courbe verte Loi normale N Courbe noire Loi du cosinus surélevé C Courbe cyan Loi du demicercle W Courbe bleue Loi uniforme continue U Courbe magenta Gisement éolien P r. M. ABID Statistique 34 Statistiques relatives à deux caractères quantitatifs Représentation des séries statistiques doubles On étudie simultanément deux caractères de la population statistique. - Mise en évidence d’une relation entre ces caractères - Test de leur degré de dépendance Distribution - Liste des valeurs que peuvent prendre les 2 variables observées xj et yi. - Fréquence de ces deux couples dans la population Exemple Exemple : test de la distance de freinage réalisé sur 40 véhicules en fonction de leur vitesse. 5 véhicules ayant une vitesse comprise entre 60 et 80 km/h se sont arrêtées sur une distance comprise entre 30 et 50 m y (m)\ x(km/h) [40,60[ [60,80[ [10, 30[ 8 4 [30, 50[ 2 5 [50, 70[ 1 [70, 90[ [90, 110[ [80,100[ [100,120[ 4 4 2 2 5 3 5 véhicules ayant une vitesse comprise entre 60 et 80 km/h se sont arrêtées sur une distance comprise entre 30 et 50 m Gisement éolien P r. M. ABID Statistique 35 Statistiques relatives à deux caractères quantitatifs Représentation des séries statistiques doubles Distribution marginale a. Distribution A partir d’une variable à deux dimensions, on peut étudier chaque variable de façon indépendante (calcul de la moyenne, de l’écart-type …) Une distribution marginale se comporte comme une série statistique simple. Gisement éolien P r. M. ABID Statistique 36 Statistiques relatives à deux caractères quantitatifs - Paramètres spécifiques d’une distribution à deux dimensions Contrairement aux séries simples où l’on peut calculer une moyenne, le « couple moyen » n’a aucune signification pratique. Covariance Au lieu de la variance on parle de la covariance, La variance d’un couple n’existe pas. la covariance est un nombre permettant d'évaluer le sens de variation de deux variables aléatoires (ou de deux séries de données numériques) et, ainsi, de qualifier l'indépendance de ces variables. la Covariance est une mesure de la force du lien entre deux variables aléatoires (numériques). La covariance est la moyenne arithmétique du produit des écarts aux moyennes arithmétiques respectives de x et y. 1 cov(x, y) = N N ∑(x i )( − x yi − y ) i cov(x, y) = xy - x y Gisement éolien P r. M. ABID Statistique 37 Statistiques relatives à deux caractères quantitatifs - Paramètres spécifiques d’une distribution à deux dimensions Corrélation Gisement éolien P r. M. ABID Statistique 38 Statistiques relatives à deux caractères quantitatifs - Paramètres spécifiques d’une distribution à deux dimensions Corrélation D'autres phénomènes, par exemple, peuvent être corrélés de manière exponentielle, ou sous forme de puissance Supposons que la variable aléatoire X soit uniformément distribuée sur l'intervalle [-1;1], et que Y = X2 ; alors Y est complètement déterminée par X, de sorte que X et Y ne sont pas indépendants, mais leur corrélation vaut 0. Gisement éolien P r. M. ABID Statistique 39 Statistiques relatives à deux caractères quantitatifs - Paramètres spécifiques d’une distribution à deux dimensions Corrélation Gisement éolien P r. M. ABID Statistique 40 Statistiques relatives à deux caractères quantitatifs - Paramètres spécifiques d’une distribution à deux dimensions Ajustement linéaire :graphique Si on porte sur un graphique les points représentatifs des xiet yi, on obtient un nuage de points. On peut déterminer une droite qui «résume» l’ensemble des points. On trace au jugé une droite D passant par le plus près possible des points du nuage de points, en s’efforçant d’équilibrer le nombre de points situés au dessus et au dessous de la droite D Gisement éolien P r. M. ABID Statistique 41 Statistiques relatives à deux caractères quantitatifs - Paramètres spécifiques d’une distribution à deux dimensions Ajustement linéaire : principe de moindres carrés On cherche une droite telle que la somme de ses «distances» aux différents points représentant les données soit minimale. Une seule droite (appelée meilleure droite) permet de minimiser la somme des écarts à la meilleure droite Droite de régression de y en x. y= a x + b cov(x,y) a= Vx b= y+a x Gisement éolien P r. M. ABID Statistique 42