Telechargé par ezzitouni jarmouni

null-1

publicité
Complément statistique
Gisement éolien
P r. M. ABID
Statistique
1
Définitions
Encyclopédia
Le mot statistique désigne à la fois un ensemble de données d'observations et
l'activité qui consiste dans leur recueil, leur traitement et leur interprétation.
Définition et objectif
Ensemble de techniques permettant d’obtenir de l’information à partir
d’observations nombreuses
Permet de se renseigner sur des faits pour prendre les meilleurs décisions
Statistique qualitative
Les valeurs du caractère étudié (modalités) sont qualitatives. On ne peut pas les
mesurer ou les ordonner.
Exemples : destination des voyages, Couleurs des voitures, etc.
Statistique quantitative
Les valeurs du caractère étudié sont quantitatives. On peut les ordonner, cumuler les
fréquences, calculer des moyennes, etc.
Exemples : Valeurs discrètes : Nombre de jours d’absence dans le service « Achats »
Valeurs continues : Les salaires des employés dans une entreprise
Gisement éolien
P r. M. ABID
Statistique
2
Définitions
Types de variables
Soit une grandeur physique X dont la valeur exacte est x0. n mesures conduisent à des
valeurs x1,x2,… x n (cas des mesures quantitatives).
La grandeur X est appelée variable statistique. Les valeurs qu’elle peut prendre sont
notées x1,x2, …
Variables statistiques
Variables qualitatives
Variables quantitatives
représentées par des quantités.
représentées par des qualités.
Les variables qualitatives s’expriment en
modalités. Les modalités sont comme des
choix de réponses aux variables étudiées.
Les variables quantitatives s’expriment en
valeurs. Les valeurs représentent les choix
de réponses aux variables quantitatives.
l’âge,
le poids
la taille
la vitesse
sexe,
programme,
destinations de voyages
métiers
Gisement éolien
P r. M. ABID
Statistique
3
Définitions
Types de variables
Variables qualitatives
Variables qualitatives nominales
représentées par des noms.
il n’y a aucun ordre précis. Ce sont
seulement des mots dans le désordre et
peu importe l’ordre dans lequel on le
présente.
Sexe : féminin ou masculin.
Endroit : ville, village , montagne, plaine,
colline,……
langues et dialectes : arabe, français,
espagnol, judéo-marocain, hassaniyya,
tamazight, rifain, tachelhit, darija, …
Gisement éolien
P r. M. ABID
Variables qualitatives ordinales
représentées par des noms comparatifs.
Les variables qualitatives ordinales sont
des variables qui contiennent un ordre.
Les variables qualitatives ordinales sont
très souvent des degrés de satisfaction,
d’approbation, etc...
Pour un fournisseur, les différentes
modalités seraient : très satisfait, satisfait,
insatisfait, très insatisfait.
Pour une population : adulte, adolescent,
enfant
Notes alphabétiques
Statistique
4
Définitions
Types de variables
Variables quantitatives
Variables quantitatives discrètes
Variables quantitatives continues
Ce sont des valeurs très nombreuses dont
l’énumération serait fastidieuse. Il est donc
préférable de les exprimer en classe de
largeur égale.
Ce sont des valeurs que l’on peut
énumérer, il est inutile d’utiliser des classes
pour les exprimer.
Par exemple :
- le nombre de personnes dans le ménage
- le nombre de cellulaires
- le nombre de présence au centre commercial
par mois
- le nombre d’éoliennes
- le nombre de ….
Gisement éolien
P r. M. ABID
Statistique
Par exemple :
- le poids est une variable quantitative
continue puisqu’il est possible
de peser autant 4lbs à 600 lbs
-Température
- poids
- courants
-vitesses
5
Définitions
objectif de la statistique appliquée aux mesures
objectif
Donner une estimation de la différence maximale entre la mesure x et la vraie valeur
x0 .
On fixe au préalable un risque d’erreur, les résultats sont alors donnés en fonction de
ce risque.
Pour un nombre infini de mesures (sans présence d’erreur systématique), on devrait
en théorie obtenir la vraie valeur x0
Erreur systématique : Une erreur est systématique lorsqu'elle contribue à toujours
surévaluer (ou toujours sous-évaluer) la valeur mesurée.
Erreur aléatoire : Une erreur est aléatoire lorsque, d'une mesure à l'autre, la valeur
obtenue peut être surévaluée ou sous-évaluée par rapport à la valeur réelle.
Pour un nombre infini de mesures (sans présence d’erreur systématique), on devrait
en théorie obtenir la vraie valeur x0
Echantillon
C’est série limitée de résultats employés pour l’estimation
La statistique : extrapole les résultats obtenus pour un nombre fini de mesures.
Gisement éolien
P r. M. ABID
Statistique
6
Exemples
Statistiques à un caractère qualitatif : paramètres de position
Ex: caractère étudié : destination des voyages (On ne peut pas les mesurer ou les ordonner.)
Présentation des données: tableau par catégorie avec effectifs
Destination
(observée)
Effectifs (ei)
(nombre d’observations)
Fréquences (fi)
(fréquences d’observations)
Pourcentages (pi)
(Pourcentages d’observations)
Europe
2300
0,22
22%
Afrique
1200
0,11
11%
Asie
850
0,08
8%
Amérique du Nord
4800
0,46
46%
Amérique du Sud
1100
0,11
11%
Total
10250
1
100%
On regroupe les résultats identiques ou appartenant à une même classe.
Les résultats sont présentés non pas sous forme de liste (peu pratique), mais sur un
graphique appelé histogramme des effectifs.
n
L’effectifs total = somme des effectifs et =
Gisement éolien
P r. M. ABID
i
i =1
fréquence = effectif/ effectif total
pourcentage = effectif × 100
∑e
pi = 100 fi
Statistique
n
ei
fi =
fi = 1
∑
n et
i =1
∑ pi = 100
i =1
7
Exemples
Statistiques à un caractère qualitatif : paramètres de position
Représentation graphique en camembert
destination préférée
Un diagramme circulaire (diagramme « en
Amérique du
Sud
camembert »). Il permet de représenter un petit
11%
nombre de valeurs par des angles proportionnels à ces
Europe
23%
valeurs.
Afrique
Le graphique est utilisé pour représenter les séries
Amérique
11%
du Nord
statistiques non chronologiques . Ce graphique représente les
47%
Asie
fréquences exprimées en valeurs relatives proportionnelles aux
8%
aires des secteurs correspondants.
Représentation graphique en colonnes
6000
Les diagrammes en colonnes sont fréquents dans
les journaux ou les comptes-rendus statistiques.
Les colonnes ont toutes la même largeur et sont espacées
de manière régulière.
Les diagramme à bandes, qu’on appelle aussi
diagrammes à barres ou histogrammes, servent à comparer
différents éléments par rapport à l’une de leurs
caractéristiques.
Gisement éolien
P r. M. ABID
Statistique
5000
4000
3000
2000
1000
0
Europe
Afrique
Asie
Amérique Amérique
du Nord du Sud
8
Exemples
Statistiques à un caractère quantitatif : paramètres de position
discret : Nombre de jours d’absence des étudiants en ER (On peut les ordonner, cumuler les
fréquences, calculer des moyennes, etc.)
Abscences des étudiants
Nombre
d’étudiants
concernés
Fréquence:
fi (%)
0
5
19
1
8
30
2
6
22
3
3
11
4
2
7
5
1
4
6
2
7
9
Nombre d’étudiants concernés
Nombre de
jours
d’absence
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Nombre de jours d’absence
Données ordinales et quantitatives discontinues sont ordonnées (du plus petit
au plus grand) suivant un choix prédéfinis
les effectifs cumulés permettent de déterminer le nombre d’observations ayant
des valeurs inférieures ou égales à xi
Gisement éolien
P r. M. ABID
Statistique
9
Exemples
Statistiques à un caractère quantitatif : paramètres de position
Continu : Les notes des étudiants en ER
•
Les valeurs sont mises en classes.
•
Toutes les distributions relatives à des
variables continues doivent être
considérées comme des distributions
groupées, puisque l'infinité de valeurs
admissibles est condensée en un nombre
fini de mesures en fonction de la précision
de la méthode de mesure utilisée.
Notes
ni
Σni
%
Σ%
Moins de 5
2
2
5,56
5,56
[5 – 6[
4
6
11,11
16,67
[6 – 8[
5
11
13,89
30,56
[8 – 10[
10
21
27,78
58,33
[10 – 16[
12
33
33,33
91,67
16 et plus
3
36
8,33
100,00
•
Le regroupement des valeurs revient à assimiler toutes les observations d’une même classe
à un caractère unique : celui du point médian
•
Perte d’informations d’autant plus grande que l’intervalle de la classe est étendu
Gisement éolien
P r. M. ABID
Statistique
10
Exemples
Statistiques à un caractère quantitatif : paramètres de position
Continu : Les notes des étudiants en ER
•
La distribution des effectifs est souvent
représentée par un histogramme .
14
12
Chaque classe est représentée par un
rectangle dont la base est proportionnelle
à l’amplitude de la classe et la hauteur à
l’effectif
10
Effectif
•
Notes des étudiants
8
6
4
•
Leurs valeurs extrêmes sont appelées
bornes des classes.
2
0
Moins de 5
[5 – 6[
•
Les classes sont mutuellement exclusives.
•
L'amplitude de la classe ou intervalle ou module de classe :
∆= borne supérieure - la borne inférieure.
[6 – 8[
[8 – 10[
[10 – 16[
16 et plus
Notes
•
Le point central ou encore point médian est situé à mi chemin entre les bornes.
Ci = Binfi +∆i/2
•
Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière
classe n'est pas précisée. On parle de classes ouvertes. A éviter !...
Gisement éolien
P r. M. ABID
Statistique
11
Exemples
Statistiques à un caractère quantitatif : paramètres de position
Continu : pesée
•
Dans un histogramme La surface totale de l’histogramme est
proportionnelle au nombre total de résultats
41
39,2
40,6
40,5
40,7
40,2
41,2
42,1
41,2
41,6
41,5
41,3
41,6
40,9
42,3
40,7
On regroupe les mesures dans des classes d’amplitudes 1g
9
8
7
6
Effectif
•
40,4
39,8
5
4
3
2
1
0
[ 39, 40[
[ 40, 41[
[ 41, 42[
[ 42, 43[
Classe
Gisement éolien
P r. M. ABID
Statistique
42,9
40,1
Poids
Classe effectif
39,2
[ 39, 40[
2
39,8
40,1
40,2
40,4
40,5
[ 40, 41[
8
40,6
40,7
40,7
40,9
41,0
41,2
41,2
41,3 [ 41, 42[
7
41,5
41,6
41,6
42,1
42,3 [ 42, 43[
3
42,9
12
Exemples
Statistiques à un caractère quantitatif : paramètres de position
Continu : Les notes des étudiants en ER
•
•
•
Poids
[ 39.0, 40.0[
[ 40.0, 40.5[
[ 40.5, 41.0[
[ 41.0, 41.5[
[ 41.5, 42[
[ 42, 43[
On regroupe les mesures dans des classes d’amplitudes différentes
On se ramène à la plus petite amplitude
on divise la hauteur du rectangle par le rapport de l’amplitude de
la classe à l’amplitude élémentaire. Autrement dit, une classe deux
fois plus grandes, aura une hauteur deux plus petite
Répartion des notes
[ 39.0, 40.0[
[ 40.0, 40.5[
[ 40.5, 41.0[
[ 41.0, 41.5[
[ 41.5, 42.0[
[ 42.0, 43.0[
effectif
2
3
5
4
3
3
10%
15%
15%
20%
15%
25%
Classes 2 fois plus larges que la
classe élémentaire. Sa hauteur est
donc divisée par 2
Gisement éolien
P r. M. ABID
Statistique
13
Exemples
Statistiques à un caractère quantitatif : paramètres de position
Continu :
• L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude
variable notamment pour les classes des valeurs extrêmes.
•
En cas de classes d'amplitudes différentes, la densité de fréquence di = ni/ ∆i permet de
comparer les effectifs ou les fréquences d'une classe à l'autre.
•
la densité de fréquence est utilisée pour tracer l’histogramme.
Gisement éolien
P r. M. ABID
Notes
∆i
Ci
ni
Σni
di
%
Σ%
Moins de
5
5
2.5
2
2
0.4
5,56
5,56
[5 – 6[
1
5.5
4
6
4
11,11
16,67
[6 – 8[
2
7
5
11
2.5
13,89
30,56
[8 – 10[
2
9
10
21
5
27,78
58,33
[10 – 16[
6
13
12
33
2
33,33
91,67
16 et plus
4
18
3
36
0.75
8,33
100,00
Statistique
14
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
La tendance centrale : En statistiques, la tendance centrale désigne le point autour duquel sont plus
ou moins regroupées les différentes valeurs d'une variable quantitative mesurées dans un
échantillon ou issues d'une population, c'est-à-dire le « centre » autour duquel ces valeurs « tendent »
à se concentrer.
Le mode ou valeur dominante : Le mode d’une série statistique (Mo) est Variables X Valeurs Xi
défini comme la modalité de la variable correspondant à l’effectif le plus
1
737
élevé. (peu utilisé)
2
630
Une répartition peut être unimodale ou plurimodale (bimodale,
trimodale…), si deux ou plusieurs valeurs de la variable considérée émergent
également.
Dans le cas d'une répartition en classes d'amplitudes égales,
la classe modale désigne celle qui a le plus fort effectif. La convention est
d'appeler mode le centre de la classe modale.
Dans notre cas le mode est Mo = 7
Gisement éolien
P r. M. ABID
Statistique
3
4
5
6
7
8
9
10
573
615
718
620
820
763
786
529
15
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
La médiane : La médiane (Me) d’une série est une valeur de la variable telle que 50% des observations
ou individus présentent une modalité inférieure et 50% une modalité supérieure à Me
La médiane (Me) est la valeur, observée ou possible, dans la série des données classées par ordre
croissant (ou décroissant), qui partage cette série en deux parties comprenant exactement le même nombre
de données de part et d’autre de Me
La médiane (Me) est stable : il est peu sensible aux
valeurs extrêmes.
Lorsque le nombre d’observations est pair,
la médiane n’est pas définie de façon unique. La valeur
usuellement retenue est la moyenne des observations
de rang n/2 et de rang n/2 + 1 (les deux valeurs
centrales).
Dans notre exemple X = 674.
C’est une valeur non observée
Gisement éolien
P r. M. ABID
Statistique
ordre Xi
1
2
3
4
5
6
7
8
9
10
Valeurs Xi
529
573
615
620
630
718
737
763
786
820
16
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
Dans le tableau ci contre on parle de la
classe médiane : c’est la classe [8 ; 12[
Notes
Effectifs
Effectifs
cumulés
[0 ; 5[
10
10
[5 ; 8[
8
18
[8 ; 12[
12
30
[12 ; 15[
11
41
[15 ; 20]
9
50
pour trouver la médiane on va interpoler
M e − 8 12 − 8
=
25 − 18 30 − 18
8,0
8,5
9,0
9,5
10,0
11,0
11,5
2
2
1
2
1
3
1
La médiane Me est donc 10.33. Cela signifie
que environ 50% des personnes ont eu moins de 10.33 et
50% plus de 10.33
il s’agit d’une valeur non observée, cependant
dans ce cas précis nous n’avons pas le détail des valeurs
observées puisque nous n’avons que les classes
Cette valeur ne représente pas forcément la
moyenne de la classe qui peut être différente (par
exemple 09.63)
Gisement éolien
P r. M. ABID
Statistique
17
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
La moyenne arithmétique ou moyenne empirique : La moyenne arithmétique (X) d’une série
quantitative est définie par la somme des valeurs de Xi divisée par l’effectif total.
(informative mais instable).
 n

X =  ∑ Xi  / n
 i =1 
Dans ce cas la moyenne est celle des données énumérées
Dans le cas où les variables sont pondérées par
des effectifs : la moyenne présentée ci-dessus est une
moyenne arithmétique dite pondérée.
 n
  n  n
X =  ∑ ni X i  /  ∑ ni  = ∑ f i X i
 i =1
  i =1  i =1
Dans le cas où les variables sont pondérées
par des effectifs : la moyenne présentée ci-dessus est
une moyenne arithmétique dite pondérée.
Gisement éolien
P r. M. ABID
Statistique
Variables X Valeurs Xi
1
737
2
630
3
573
4
615
5
718
6
620
7
820
8
763
9
786
10
529
18
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
Pour des données groupées en classes, les Xi sont les centres des classes ou les moyennes
calculées à l’intérieur de chaque classe.
La moyenne de plusieurs groupes correspond à la moyenne pondérée des moyennes pour
chaque groupe
Dans notre cas la moyenne est Xm = 679.1
La moyenne n’est pas toujours un indicateur
précis, elle est sensible aux valeurs extrêmes.
Gisement éolien
P r. M. ABID
Statistique
95,00
97,00
100,00
103,00
105,00
100,00
50,00
75,00
100,00
125,00
150,00
100,00
19
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
La moyenne géométrique : La moyenne géométrique ( X ) d’une série quantitative est définie
g
par :


X g = ∏ Xi 
 i =1 
n
1
n
n
1
On peut remarquer que : ln ( X g ) = ∑ ln ( X i )
n i =1
Xg ≤ X
Elle est très souvent utilisée pour les données distribuées suivant une loi log normale.
La moyenne géométrique est moins sensible que la moyenne arithmétique aux
valeurs les plus élevées d'une série de données.
Elle donne, par conséquent, une autre et meilleure estimation de la tendance centrale
des données dans le cas d’une distribution à longue traine à l’extrémité supérieure de la
courbe.
Dans notre cas le moyenne est Xg = 672.6
Gisement éolien
P r. M. ABID
Statistique
20
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de position
La moyenne harmonique : La moyenne harmonique ( X ) d’une série quantitative est définie
h
par :
n
Xh =
On peut remarquer que :
n
1
∑
i =1 X i
1
1 n 1
= ∑
X h n i =1 X i
Xh ≤ Xg
Elle est en général utilisée pour calculer des moyennes sur des intervalles de temps
qui séparent des événements.
Dans notre cas le moyenne est Xh = 666.1
Gisement éolien
P r. M. ABID
Statistique
21
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
L’étendue : L’étendue, ou intervalle de variation d’une série statistique se définit, uniquement pour des
variables quantitatives, comme la différence entre la plus grande et la plus petite des valeurs de la série.
W = X Max − X min
Dans notre cas l’étendue est W = 291
L’écart moyen absolu : se définit comme étant égal à la moyenne
des valeurs absolues des différences entre les observations et leur
moyenne :
n
∆X = ∑ X i − X / n
i =1
Dans notre cas
∆X = 85.7
L’écart médian absolu : se définit comme étant égal à la
moyenne des valeurs absolues des différences entre les
observations et leur médiane :
n
∆M = ∑ X i − M / n
i =1
Dans notre cas
Gisement éolien
P r. M. ABID
∆M = 85.7
Statistique
ordre Xi
1
2
3
4
5
6
7
8
9
10
Valeurs Xi
529
573
615
620
630
718
737
763
786
820
22
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Quantile : Pour décrire des séries statistiques, le concept de médiane est adapté non plus pour séparer les
mesures en 2 sous ensembles, mais en k. On appelle ces mesures « quantiles ». Si k = 4 on parle de quartile.
Quartile :
« Pour k = 4, les quantiles, appelés quartiles, sont trois nombres Q1, Q2, Q3 définis de la
manière suivante :
– 25% des valeurs prises par la série sont inférieures à Q1 ;
– 25% des valeurs prises par la série sont supérieures à Q3 ;
– Q2 est la médiane Me ;
– Q3 − Q1 est l’intervalle interquar.le, il con.ent 50% des valeurs de la série.
Approximation utile :
– 25% dans [Xmin, Q1] ;
– 50% dans [Xmin, Q2] ;
– 75% dans[Xmin, Q3] ;
Q1 = 7.5
Q2 = 9.5
Q3 = 10.5
Rang Série
1
4
2
5
3
7
4
8
5
8
6
9
7
10
8
10
9
10
10
11
11
13
12
16
Cette définition rend asymétrique la définition.
Gisement éolien
P r. M. ABID
Statistique
23
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Rang n =4 p :
Q1 = moyenne entre la pe et (p+1)e valeur.
Q2 = moyenne entre la (2p)e valeur et la (2p+1)e valeur.
Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur.
n =12 : p =3
Q1 = moyenne entre le rang 3 et le rang 4.
Q2 = moyenne entre le rang 6 et le rang 7.
Q3 = moyenne entre le rang 9 et le rang 10.
Gisement éolien
P r. M. ABID
Q1 = 7.5
Q2 = 9.5
Q3 = 10.5
Statistique
Rang Série
1
4
2
5
3
7
4
8
5
8
6
9
7
10
8
10
9
10
10
11
11
13
12
16
24
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Rang n =4 p + 1:
Q1 = (p+1)e valeur.
Q2 = (2p+1)e valeur.
Q3 = (3p+1)e valeur.
Rang Série
1
4
2
5
3
7
4
8
5
8
6
9
7
10
8
10
9
10
10
11
11
12
12
13
13
16
n =13 : p =3
Q1 = le rang 4.
Q2 = le rang 7.
Q3 = le rang 10.
Gisement éolien
P r. M. ABID
Q1 = 8
Q2 = 10
Q3 = 11
Statistique
25
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Rang n =4 p + 2:
Q1 = (p+1)e valeur.
Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur.
Q3 = (3p+2)e valeur.
n =14 : p =3
Q1 = le rang 4.
Q2 = moyenne entre le rang 7 et le rang 8.
Q3 = le rang 11.
Gisement éolien
P r. M. ABID
Q1 = 8
Q2 = 9.5
Q3 = 11
Statistique
Rang Série
1
4
2
5
3
7
4
8
5
8
6
9
7
9
8
10
9
10
10
10
11
11
12
12
13
13
14
16
26
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Rang n =4 p + 3:
Q1 = (p+1)e valeur.
Q2 = (2p+2)e valeur.
Q3 = (3p+3)e valeur.
n =15 : p =3
Q1 = le rang 4.
Q2 = le rang 8.
Q3 = le rang 12.
Gisement éolien
P r. M. ABID
Q1 = 8
Q2 = 10
Q3 = 11
Statistique
Rang Série
1
4
2
5
3
7
4
8
5
8
6
9
7
9
8
10
9
10
10
10
11
11
11
12
13
12
14
13
15
16
27
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
La variance : La variance est la somme pondérée des carrés des écarts des valeurs de la série à la moyenne.
n
∑( X
2
n
σ = var( X ) =
i − X)
2
i =1
n
n
= ∑ fi ( X i − X )
2
i =1
Cette définition de la variance n’est pas utilisée en pratique.
L'inconvénient de cette définition est qu'il a tendance à sous-estimer légèrement l'écart des
données par rapport à leur moyenne.
La raison mathématique de ce défaut est liée à la notion de biais d'un estimateur.
Un biais est une erreur qui engendre des résultats erronés. Le biais peut être lié à une
erreur de conception du projet de recherche et donc à sa méthodologie. Il peut aussi être dû à une erreur
d’interprétation au moment de l’analyse des résultats de la recherche.
Gisement éolien
P r. M. ABID
Statistique
28
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
On utilise la définition suivante (Variance d’échantillonnage)
n
∑( X
σ n2−1 = s 2 = var( X ) =
i − X)
2
i =1
n −1
La première est dite variance biaisée (Varn), la seconde est non biaisée (Varn-1).
Dans notre cas l’étendue est Varn = 8698,5 et Varn-1 = 9665,0
L’écart-type : L'écart-type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par
rapport à la moyenne. C'est une mesure de dispersion. :
σ = ∆X = var( X )
Utilisez l’écart-type à bon escient en prenant
σ = ∆X = S 2 = S
L’écart-type ; σ = 93,27 , σ = s = 98,31.
Gisement éolien
P r. M. ABID
Statistique
29
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
la distance inter-quartile : est définie comme la différence entre q1 et q3
∆ q = q3 – q1 (148)
la distance inter-quartile est une caractéristique de dispersion
extrêmement robuste.
le coefficient de variation : est définie comme le rapport
entre l’´ecart type et la moyenne :
S2
CV =
X
CV = 0,144766
ordre Xi
1
2
3
4
5
6
7
8
9
10
Valeurs Xi
529
573
615
620
630
718
737
763
786
820
Le coefficient de variation également nommé, écart relatif, est une mesure de la dispersion
relative.
Ce nombre est sans unité ; c'est une des raisons pour lesquelles il est parfois préféré à la variance
pour traiter des grandeurs physiques. Le RSD (relative standard deviation) est souvent défini comme La
valeur absolue du coefficient de variation exprimée en pourcentage.
Gisement éolien
P r. M. ABID
Statistique
30
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Paramètres de forme :
Moment d’ordre 3 : Le moment d'ordre 3 donne une idée de l'asymétrie d'une distribution (pour
savoir si elle est centrée ou non sur la moyenne).
3
1 n
m3 = ∑ ( X i − X )
n i =1
Moment d’ordre 4 : Le moment d'ordre 4 que l'on appelle le kurtosis permet de se faire une idée
de "l'aplatissement" de la distribution et de savoir si l'on est plus proche d'une loi uniforme ou d'un pic.
4
1 n
m4 = ∑ ( X i − X )
n i =1
Le paramètre Skewness : c’est un coefficient de dissymétrie (skewness en anglais) correspond à
une mesure de l’asymétrie de la distribution d’une variable aléatoire. Il est défini par :
m
γ 3 = 33
S
Le paramètre γ3 est nul pour
une distribution symétrique.
En termes généraux, l’asymétrie d’une
distribution est positive si la queue de droite (à
valeurs hautes) est plus longue ou grosse, et négative
si la queue de gauche (à valeurs basses) est plus
longue ou grosse.
Dans notre : γ3 = - 0.037
Gisement éolien
P r. M. ABID
Statistique
31
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Le paramètre Kurtosis : En statistique, le kurtosis (du grec κυρτός : courbe, arrondi, bossu), ( coefficient
d’aplatissement ), correspond à une mesure de l’aplatissement, ou a contrario de la pointicité, de la
distribution d’une variable aléatoire réelle.
Le kurtosis mesure, hors effet de dispersion (donnée par l’écart type), la disposition des masses
de probabilité autour de leur centre, tel que donné par l’espérance mathématique, c’est-à-dire, d’une
certaine façon, leur regroupement proche ou loin du centre de probabilité.
Dans le cas particulier d'une loi normale, le rapport entre le moment d'ordre 4 et le moment
d'ordre 2 au carré est constant et vaut 3. C'est un indicateur qui permet de savoir si la loi testée/étudiée est
proche d'une loi normale. Le kurtosis est défini par
γ4 =
m4
−3
S4
Dans notre : γ3 = - 1.339
Gisement éolien
P r. M. ABID
Statistique
32
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Loi de probabilité
Loi de Laplace
Loi sécante hyperbolique
Kurtosis
normalisé
1,2
Loi normale
0
Loi du cosinus surélevé
-0,593762
Loi du demi-cercle
-1
Loi uniforme continue
-1,2
x−µ
b
2b
 − Πb x 
f ( x ) = 2 arcth  e
 2b


2
Loi logistique
Gisement éolien
P r. M. ABID
f ( x) = e
3
−
f ( x) = e
−
x−µ
s
f ( x) = e
Statistique
−
x−µ
−


s 1 + e s 


2
2
( x−m)
2σ 2
2πσ
33
Analyse des statistiques à un caractère
Caractéristiques de tendance centrale : paramètres de dispersion
Loi de
probabilité
Symbole
dans la
figure
Couleur dans la
figure
Loi de Laplace
D
Courbe rouge
Loi sécante
hyperbolique
S
Courbe orange
Loi logistique
L
Courbe verte
Loi normale
N
Courbe noire
Loi du cosinus
surélevé
C
Courbe cyan
Loi du demicercle
W
Courbe bleue
Loi uniforme
continue
U
Courbe magenta
Gisement éolien
P r. M. ABID
Statistique
34
Statistiques relatives à deux caractères quantitatifs
Représentation des séries statistiques doubles
On étudie simultanément deux caractères de la population statistique.
- Mise en évidence d’une relation entre ces caractères
- Test de leur degré de dépendance
Distribution
- Liste des valeurs que peuvent prendre les 2 variables observées xj et yi.
- Fréquence de ces deux couples dans la population
Exemple
Exemple : test de la distance de
freinage réalisé sur 40 véhicules en fonction de
leur vitesse.
5 véhicules ayant une vitesse
comprise entre 60 et 80 km/h se sont arrêtées
sur une distance comprise entre 30 et 50 m
y (m)\ x(km/h) [40,60[ [60,80[
[10, 30[
8
4
[30, 50[
2
5
[50, 70[
1
[70, 90[
[90, 110[
[80,100[ [100,120[
4
4
2
2
5
3
5 véhicules ayant une vitesse comprise entre 60 et 80 km/h se sont arrêtées sur une distance comprise
entre 30 et 50 m
Gisement éolien
P r. M. ABID
Statistique
35
Statistiques relatives à deux caractères quantitatifs
Représentation des séries statistiques doubles
Distribution marginale a. Distribution
A partir d’une variable à deux dimensions, on peut étudier chaque variable de façon
indépendante (calcul de la moyenne, de l’écart-type …)
Une distribution marginale se comporte comme une série statistique simple.
Gisement éolien
P r. M. ABID
Statistique
36
Statistiques relatives à deux caractères quantitatifs
- Paramètres spécifiques d’une distribution à deux dimensions
Contrairement aux séries simples où l’on peut calculer une moyenne, le « couple moyen » n’a
aucune signification pratique.
Covariance
Au lieu de la variance on parle de la covariance, La variance d’un couple n’existe pas.
la covariance est un nombre permettant d'évaluer le sens de variation de deux variables
aléatoires (ou de deux séries de données numériques) et, ainsi, de qualifier l'indépendance de ces variables.
la Covariance est une mesure de la force du lien entre deux variables aléatoires (numériques).
La covariance est la moyenne arithmétique du produit des écarts aux moyennes arithmétiques
respectives de x et y.
1
cov(x, y) =
N
N
∑(x
i
)(
− x yi − y
)
i
cov(x, y) = xy - x y
Gisement éolien
P r. M. ABID
Statistique
37
Statistiques relatives à deux caractères quantitatifs
- Paramètres spécifiques d’une distribution à deux dimensions
Corrélation
Gisement éolien
P r. M. ABID
Statistique
38
Statistiques relatives à deux caractères quantitatifs
- Paramètres spécifiques d’une distribution à deux dimensions
Corrélation
D'autres phénomènes, par
exemple, peuvent être corrélés
de manière exponentielle, ou
sous forme de puissance
Supposons que la variable aléatoire X
soit uniformément distribuée sur
l'intervalle [-1;1], et que Y = X2 ; alors
Y est complètement déterminée par
X, de sorte que X et Y ne sont pas
indépendants, mais leur corrélation
vaut 0.
Gisement éolien
P r. M. ABID
Statistique
39
Statistiques relatives à deux caractères quantitatifs
- Paramètres spécifiques d’une distribution à deux dimensions
Corrélation
Gisement éolien
P r. M. ABID
Statistique
40
Statistiques relatives à deux caractères quantitatifs
- Paramètres spécifiques d’une distribution à deux dimensions
Ajustement linéaire :graphique
Si on porte sur un graphique les points représentatifs des xiet yi, on obtient un nuage de points. On peut
déterminer une droite qui «résume» l’ensemble des points.
On trace au jugé une droite D passant par le plus près possible des points du nuage de points, en s’efforçant
d’équilibrer le nombre de points situés au dessus et au dessous de la droite D
Gisement éolien
P r. M. ABID
Statistique
41
Statistiques relatives à deux caractères quantitatifs
- Paramètres spécifiques d’une distribution à deux dimensions
Ajustement linéaire : principe de moindres carrés
On cherche une droite telle que la somme de ses «distances» aux différents points représentant les
données soit minimale.
Une seule droite (appelée meilleure
droite) permet de minimiser la somme des écarts à la
meilleure droite
Droite de régression de y en x.
y= a x + b
cov(x,y)
a=
Vx
b= y+a x
Gisement éolien
P r. M. ABID
Statistique
42
Téléchargement