Faculté des Sciences
Département de Biologie
Coures de Biostatistiques.
1
RAPPELS DE STATISTIQUES DESCRIPTIVES
La statistique descriptive a essentiellement pour but de présenter les données
observées sous une forme telle que l’on puisse en prendre connaissance facilement.
Les différentes méthodes qui permettent d’atteindre cet objectif, peuvent être groupées
en fonction du nombre de variables ou caractéristiques qui sont considérées simultanément
(une dimension, deux dimensions, trois dimensions etc.).
Avant toute chose, nous devons donner quelques précisions essentielles quant à la
nature des observations considérées. Celle-ci sont soit quantitatives, soit qualitatives.
Les données quantitatives : Elles se divisent elles mêmes en dénombrement (ou
comptage) et en mesure (ou mensurations).
- Dans le cas des dénombrements, la caractéristique étudiée est une variable de nature
discontinue ou discrète, ne prenant que des valeurs entières non négatives (nombre de
fruits par rameaux, nombre de parasites par hôte, nombre de têtes de brétaille par
exploitant etc.).
- Dans le cas des mesures, la variable est de nature continue (hauteur d’une plante, poids
d’un animal, étendue d’une exploitation agricole, concentration d’une solution,
rendement d’une culture etc.).
Les données qualitatives : il est possible de les assimiler au cas des variables
discontinues, en supposant que les différentes variantes du caractère qualitatif soient
rangées dans un ordre correspondant par exemple à la suite des nombres entiers
positifs (différentes couleurs, différents degrés d’infection etc.). cette correspondance
est particulièrement simple à établir lorsque le caractère qualitatif étudié ne possède
que deux variantes (mort ou vivant, masculin ou féminin etc.).
Faculté des Sciences
Département de Biologie
Coures de Biostatistiques.
2
CHAPITRE I :
STATISTIQUES DESCRIPTIVES A UNE DIMENSION
1. Introduction :
Le but de simplification de la statistique descriptive peut être atteint en condensant les
données d’observations sous trois formes distinctes :
Les tableaux statistiques : permettent de présenter les données sous la forme
numérique de distributions de fréquences.
Les représentations graphiques : divers diagrammes permettent de présenter
graphiquement ces distributions (histogramme, polygone de fréquences, bâtonnés etc.)
La réduction des données : les données brutes peuvent être condensées sous la forme
de quelques paramètres ou valeurs typiques.
2. Les distributions de fréquences :
2.1. Les distributions non groupées :
La forme la plus élémentaire de présentations est de, les rangées par ordre croissant.
Une telle énumération est appelées série statistique. Certaines valeurs peuvent y être répétées
plusieurs fois.
Exp : hauteur totale de 12 arbres mesurées, sont en mètres :
20,4 ; 25,4 ; 25,6 ; 25,6 ; 26,6 ; 28,6 ; 28,7 ; 29,0 ; 29,8 ; 30,5 ; 30,9 ; 31,1
Quant on est dans le cas d’observations fort nombreuses, il est plus intéressant de les
condenser sous la forme d’une distribution de fréquences aussi appelée distribution statistique
ou distribution empirique.
Le nombre d’occurrences d’une même valeur observée est par définition sa fréquence
absolue. A partir de l’ensemble des valeurs observées x1, x2, …., xp rangées par ordre
croissant, et des fréquences correspondantes n1, n2, ….., np, on obtient la distribution
fréquences. Avec (n.) le nombre total des observations (effectifs), et on a
Les fréquences peuvent également être exprimées en valeurs relatives ou pourcent
des nombre total d’observations. En désignant ces fréquences relatives par le symbole ni’, on
a : ni’= ni/n (ou 100% ni/n) et (ou 100%).
On peut aussi additionner de proche en proche, les fréquences observées absolues ou relatives
pour obtenir des fréquences cumulées.
nn
p
i
i
=
=
å
1
1
1
=
å
=
p
i
i
n
Faculté des Sciences
Département de Biologie
Coures de Biostatistiques.
3
2.2. Les distributions groupées :
Quand le nombre de valeurs observées distinctes est élevé, il est plus utile de
condenser encore les tableaux statistiques, en regroupant les observations en classes ou en
catégorie. Ce type de distributions est utile lorsqu’on dispose d’un grand nombre de données
relatives à une variable continue dont les valeurs observées sont très proches les unes des
autres. Chacune des classes est généralement caractérisée soit par les valeurs extrêmes qu’elle
peut contenir, soit par ses limites.
L’écart entre les limites des classes est appelé amplitude ou intervalle ou module de
classe. Lorsque cet intervalle est constant, chacune des classes peut également être
caractérisée par son point central ou point médian.
La fréquence d’une classe est le nombre d’observations qui sont contenues, les fréquences
relatives et fréquences cumulées sont définies comme dans le cas des distributions non
groupées.
3. La réduction des données :
Elle a pour objet le calcul de paramètres ou valeurs typiques permettant de caractériser
simplement les séries statistiques et les distributions de fréquences observées. Les paramètres
les plus utilisées sont :
*** Les paramètres de positions, aussi appelés valeurs moyennes, valeurs centrales ou
moyennes. Ils servent à caractériser l’ordre de grandeur des observations.
*** Les paramètres de dispersion, qui permettent de chiffrer la variabilité des valeurs
observées, autour d’un paramètre de position.
*** Les paramètres de dissymétrie et d’aplatissement (voir cours de 1ère et 2ème années
licence).
4. Les paramètres de positions :
4.1. La moyenne arithmétique :
Désignée par le signe , elle est calculée par l’équation suivante :
Séries Statistiques
Distributions de Fréquences
à n1+n2+ … np.
x
å
=
=
p
i
i
xx n1
1
å
=
=
p
i
ii xnx n1
.
1
nn
p
i
i
=
=
å
1
Faculté des Sciences
Département de Biologie
Coures de Biostatistiques.
4
4.2. La médiane :
Désignée par le signe , elle est tel que la moitié des observations lui sont inférieures
(ou égales) et la moitié supérieures (ou égales) elle est calculée comme :
, Si (n) est impair, pour SS et DF
, Si (n) est pair, pour SS et DF
4.3. Le mode :
On appel mode la valeur dominante.
5. Les paramètres de dispersion :
5.1. La variance :
C’est la moyenne arithmétique des carrés des écarts par rapport à la moyenne.
Symbolisé par le signe (s2) ou dans la littérature par 2), et elle est donnée par la relation
suivante :
à
= pour les SS
à
=
pour les DF
5.2. L’écart-type :
Aussi appelé déviation standard, c’est la racine carrée de la variance, symbolisé par
le signe (s) ou (σ) et donnée par :
5.3. Le coefficient de variation :
Il est exprimé en portant la valeur de l’écart-type en valeur relative ou en
pourcentage de la moyenne lorsque celle-ci est positive :
6. Les paramètres de dissymétrie et d’aplatissement (voir cours de 1ère et 2ème
années licence).
x
~
2/)1(
~
+
=n
xx
( )
2
21å-=xx
n
si
ú
ú
û
ù
ê
ê
ë
é÷
ø
ö
ç
è
æ
-=åå
==
2
11
22 11 n
i
i
n
i
ix
n
x
n
s
n
SCE
( )
2
21å-=
xxn
n
sii
ú
ú
û
ù
ê
ê
ë
é÷
ø
ö
ç
è
æ
-=åå
=
=
2
11
22 11 n
i
ii
n
i
ii xn
n
xn
n
s
n
SCE
2
ss =
100*=
x
s
V
Faculté des Sciences
Département de Biologie
Coures de Biostatistiques.
5
CHAPITRE II :
STATISTIQUES DESCRIPTIVES A DEUX DIMENSION
1. Introduction :
La statistique descriptive à deux dimensions a essentiellement pour but de mettre en
évidence les relations qui existe entre deux séries d’observations considérées simultanément.
Ces observations peuvent être de nature qualitative ou quantitative, continue ou discontinue,
et il n’est d’ailleurs pas exclu de considérer simultanément, deux séries d’observations de
natures différentes.
2. Les distributions de fréquences :
Les observations relatives à deux variables et à plusieurs individus (n par exemple) se
présentent le plus simplement sous la forme d’une série statistique double c'est-à-dire de la
suite des n couples de valeurs observées (xi, yi) éventuellement rangés dans l’ordre croissant
de l’une des deux variables :
x1, x2, …. xn
y1, y2, … yn
Exemple (1).
3. Les représentations graphiques :
Les séries statistiques doubles peuvent être représentées graphiquement sous la forme
de diagrammes de dispersion ou nouage de points. Ceux-ci sont obtenus en représentant
chaque couple d’observations (xi, yi) par un point dans le plan (x, y), les échelles des
digrammes de dispersion sont généralement choisis de manière à donner à ces diagramme une
forme approximativement carrée.
4. La réduction des données :
Les paramètres utilisés pour caractériser les séries doubles et les distributions de
fréquences à deux dimensions sont de deux types. Les uns ne concernent qu’une variable à la
fois. Les autres servent à décrire les relations existantes entre les deux séries d’observations,
qui sont alors considérées simultanément.
Pour caractériser les distributions marginales et conditionnelles, on utilise les paramètres
habituels de la statistique descriptive à une dimension ( , ), les variances marginales
( , ), les moyennes conditionnelles ( ou et ou ), et les variances conditionnelles
x
y
2
x
s
2
y
s
y
x
j
x
x
y
i
y
1 / 24 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!