Cours1

publicité
Chapitre 1. Statistiques descriptives
1. Introduction.
Pour résoudre des problèmes en génie, des données doivent être recueillies, décrites et
analysées pour produire des informations sommaires. Le rôle des statistiques descriptives est de
donner une idée sommaire sur les données par le calcul d’un nombre de statistiques et par des
représentations graphiques.
2. Concepts de base. Population, échantillon et variable.
Une étude statistique se base sur des données. Cependant, il est souvent impossible d’avoir les
données complètes surtout s’il y a un grand nombre de possibilités ou si l’analyse des données
utilise un test destructif. Par exemple, il serait impossible de déterminer la résistance moyenne
d’un type de contenants en testant jusqu’à rupture chaque contenant sortant de la ligne de
production.
Même si on n’est pas dans les situations ci-dessus, étudier toutes les données serait onéreux en
temps et en argent.
Un ingénieur qui s’intéresse à vérifier si un procédé de fabrication respecte les spécifications va
inspecter suivant un plan établi un certain nombre d’unités produites chaque jour.
La différence entre toutes les données possibles et un nombre restreint de données recueillies
est important dans la compréhension des statistiques.

Population.
Une population en statistique est l’ensemble des observations possibles d’une caractéristique
d’intérêt.

Échantillon
Un échantillon d’une population est un sous ensemble de la population qui sera recueilli dans le
cadre de l’étude concernée.
1

Variable
La variable est la caractéristique observée. En génie, en général les variables étudiées sont
quantitatives, c'est-à-dire mesurables. On distingue deux variables quantitatives :
-
Variables discrètes : Une variable est dite discrète si elle prend un nombre fini de
valeurs ou un nombre infini de valeurs mais isolées.
-
Variables continues : Une variable est dite continue si elle prend ses valeurs dans un
intervalle réel.
Exemple.
Variable : Résistance
Type : Continue
Population : Toutes les mesures des résistances produites.
Échantillon : Mesures de 50 résistances.
Exemple.
Variable : Nombre de paquets qui arrivent à un serveur dans une période d’une minute
Type : discrète
Population : Tout nombre possible de paquets qui arrivent dans une période d’une minute
Échantillon : Nombre de paquets qui arrivent dans une minute pendant 50 périodes d’une
minute.

Échantillon aléatoire
Un échantillon aléatoire est un échantillon où toutes les unités de la population ont la même
chance d’être sélectionnées. Si par exemple, un ingénieur sélectionne les 10 premières unités
produites, son échantillon n’est pas aléatoire. Pour sélectionner un échantillon aléatoire, il faut
utiliser un générateur de nombres aléatoires.
2

Statistique
Une statistique est une mesure faite sur un échantillon.

Paramètre.
Un paramètre est une caractéristique de la population que la statistique va nous permettre
d’estimer.
3. Statistiques de base.
Statistiques de tendance centrale.

Moyenne d’échantillon.
La moyenne d’échantillon est une mesure centrale autour de laquelle gravitent les données de
l’échantillon.
n
La moyenne est donnée par X 
X
i 1
i
n
, où X i est la ième donnée et n le nombre de données
dans l’échantillon.
Exemple.
La moyenne de la série de données suivantes : 2
X
3.5
6
2
1.5
est
2  3.5  6  2  1.5
3.
5
En général, le nombre de données est grand pour faire les calculs à la main, on utilise alors un
logiciel comme Excel ou un logiciel spécialisé en statistiques.
Exemple.
Dans un procédé de fabrication de cartes pour circuits imprimés, on a mesuré l’épaisseur en mils
du placage en cuivre d’un échantillon de 100 cartes et on a obtenu :
3,468
3,428
3,516
3,509
3,461
3,492
3,478
3,482
3,49
3,467
3,519
3,498
3,504
3,469
3,497
3,466
3
3,458
3,478
3,5
3,443
3,449
3,525
3,461
3,5
3,561
3,506
3,479
3,444
3,524
3,531
3,501
3,539
3,481
3,497
3,513
3,461
3,528
3,496
3,533
3,496
3,512
3,55
3,541
3,441
3,569
3,531
3,468
3,513
3,505
3,523
3,47
3,475
3,457
3,536
3,528
3,458
3,469
3,461
3,502
3,431
3,491
3,506
3,439
3,443
3,517
3,481
3,535
3,515
3,46
3,575
3,488
3,495
3,51
3,483
3,467
3,467
3,502
3,471
3,516
3,556
3,482
3,512
3,45
3,516
3,476
3,515
3,495
3,518
3,523
3,564
3,522
3,52
3,474
3,489
3,514
3,47
3,477
3,536
3,491
3,484
En utilisant la fonction moyenne d’Excel par exemple, on obtient X  3.495 .

Médiane.
Une autre statistique de mesure centrale utilisée est la médiane. Si la série de données est
ordonnée, la médiane est un nombre réel qui sépare la série en deux.
Si le nombre de données est impair, la médiane est la valeur de la série ordonnée qui sépare la
série en deux et si le nombre de données est pair, la médiane est la moyenne des deux valeurs
qui se trouvent au centre de la série ordonnée.
La médiane est en général différente de la moyenne à moins que les données de part et d’autre
de la médiane soient à la même distance de celle-ci.
Exemples.
La médiane de la série ordonnée 2 2 3
La médiane de la série ordonnée 1 1 2 2
4 4 4 5 est 4.
4 4 5 6 est la moyenne de 2 et 4 qui est 3.
La médiane des données sur l’épaisseur du placage des cartes se fait avec un logiciel et on
obtient 3.496.
La série 1 1 2 2 3 4 4 à pour moyenne 2.428 et pour médiane 2. Si on reprend la même
série en changeant la dernière valeur par 9, la moyenne change pour 3.143 et la médiane reste
toujours 2. La moyenne est donc plus sensible que la médiane.
4
Statistiques de variabilité ou de dispersion.

Variance d’échantillon.
Les statistiques centrales ne sont pas suffisantes à elles seules de résumer les données. Pour
cela regardons de près les deux séries de données suivantes;
Série 1 : 2
2
50 98 98
Série 2 : 44 44
50
56
56
Ces deux séries ont la même moyenne qui est 50 et la même médiane qui est 50. Cependant il y
a une différence fondamentale à savoir que la série 1 set plus étendue que la série 2. Pour
mesurer cette dispersion des données par rapport à la moyenne, on utilise une statistique qui
tient compte des écarts entre chaque donnée et la moyenne. La variance est la statistique qui
mesure cette dispersion. On la calcule comme une moyenne des carrées des écarts entre les
données et la moyenne.
n
(X
La variance est donnée par
i 1
i
 X )2
n 1
et a pour unité celle de la variable au carré. On
utilise aussi la racine carrée de la variance qui est une forme de distance moyenne entre les
données et la moyenne, cette statistique sera appelée écart type d’échantillon S et a les mêmes
unités que la variable étudiée. On a alors
n
n
S
 ( X i  X )2
i 1
n 1
ou S 2
(X
i 1
i
 X )2
n 1
Exemples.
Série
1:
S2 
(2  50)2  (2  50)2  (50  50) 2  (98  50) 2  (98  50) 2
 2304
4
S  2304  48
5
et
Série
2:
S2 
(44  50)2  (44  50)2  (50  50)2  (56  50)2  (59  50)2
 36
4
et
S  36  6 .
La série 1 a une plus grande variance que la série 2.
Exemple.
La variance des données sur l’épaisseur de placage est obtenue avec la formule var d’ Excel. On
obtient S 2  0.00103 et S  0.0321

Coefficient de variation.
Pour comparer deux séries n’ayant pas la même moyenne ou ayant des unités différentes, on
utilise une statistique qui mesure la dispersion relative qui est le coefficient de variation. On le
définit par
CV 
S
100%
X
Un coefficient de variation faible indique une faible dispersion et une forte homogénéité.
Exemple.
Le coefficient de variation dans l’exemple de l’épaisseur du placage est 0.92%. Ce coefficient est
très faible, on en déduit que les données sont peu dispersées.
4. Distribution d’une variable

Effectif et Fréquence.
-
Cas d’une variable discrète : L’effectif d’une valeur est le nombre de fois que la valeur
est observée dans l’échantillon. La fréquence d’une valeur est la proportion qu’elle est
observée dans l’échantillon.
-
Cas d’une variable continue. La série de données est partagée en intervalles appelées
classes. L’effectif d’une classe est le nombre d’observations de l’échantillon qui sont
dans cette classe. La fréquence d’une classe est la proportion d’observations de
l’échantillon qui sont dans cette classe.

Distribution d’une variable.
6
Un résumé qui peut prendre la forme d’un tableau ou d’un graphique qui met en évidence les
données individuelles dans le cas d’une variable discrète ou sous forme de classes dans le cas
d’une variable continue en précisant leurs effectifs ou leurs fréquences.
Exemple.
Les données suivantes représentent la résistance à la traction de tiges d’acier.
Résistance à la traction
103779
103633
103779
103633
103799
97383
105087
102325
102906
102616
101162
107848
103488
101162
106395
105377
104796
106831
102470
99563
102906
98110
100872
104796
103197
102325
105232
105813
101017
104651
104360
106831
100872
104651
103924
108430
104651
102906
101453
105087
103197
105337
101744
106104
100726
106540
101744
101598
103799
100145
Les résultats suivants ont été obtenus par Stagraphics.
Tableau des fréquences.
7
Exemple.
Les données suivantes représentent des durées de vie d’un certain dispositif.
Durée de vie
12411
272005
108561
46684
233254
40479
93241
21491
89601
116729
16263
150011
59067
118077
33771
6171
60266
399071
82273
87592
95291
72435
28637
313879
46252
53533
173580
199458
27668
78954
162792
149432
102947
77084
137149
220413
45771
7400
50668
43911
182737
61894
10291
58526
49022
Les résultats suivants ont été obtenus par Stagraphics.
8
5. Graphiques.

Histogramme.
Un histogramme est un graphique qui résume le tableau des effectifs ou des fréquences.
Exemples.
On reprend les exemples précédents. Les histogrammes qui suivent ont été obtenus avec
Statgraphics.
9
6. Diagramme en boîte.
Une série ordonnée de données peut être partagée en quatre par trois nombres appelées
quartiles. Le plus petit est noté Q1 , le deuxième Q2 qui est la médiane et le plus grand est Q3 .
La moitié des valeurs se trouvent entre Q1 et Q3 .
La quantité Q3  Q1 est l’intervalle interquartile et noté IQR. Les données inférieures à
Q1  1.5IQR ou supérieures à Q3  1.5IQR sont dites données extrêmes.
Le diagramme en boîte est un graphique qui montre la médiane, les quartiles et les données
extrêmes. Une application fréquente du diagramme en boîte est la comparaison de plusieurs
séries de données.
10
Exemples.
On reprend les exemples précédents. Les diagrammes en boîte ont été obtenus avec
Statgraphics
11

Asymétrie d’une distribution.
Les asymétries Classiques sont exposées dans les graphiques suivants :
12
7. Densités.
Les histogrammes de la résistance à la traction et de la durée de vie présentent des formes
différentes. Celui de la résistance à la traction ressemble à une cloche alors que celui de la durée
de vie à une forme avec une forte asymétrie à droite.
Si on construit un histogramme de telle sorte que l’aire de chaque rectangle soit égale à la
fréquence de chaque classe (Ceci se fait en prenant pour unité la longueur de la classe et pour
hauteur la fréquence ou si on veut conserver les unités, on prend pour hauteur la fréquence
divisée par la longueur de la classe). L’histogramme ainsi construit à une aire égale à 1 et l’aire
de chaque classe est la fréquence de la classe. Cependant, avec l’histogramme on ne peut
calculer que des aires d’intervalles dont les extrémités sont des extrémités de classe.
Afin d’avoir un modèle pour toute la population et qui permettrait de calculer la fréquence de
tout intervalle, on ajuste une fonction à l’histogramme qu’on appelle fonction de densité. Nous
verrons plus loin l’utilisation des densités.
13
14
Téléchargement