Telechargé par mohammedislambouchiti

Statistique descriptive univariée : Définitions et représentations

publicité
I.
Généralités et définitions :
❖
(au singulier):est l’ensemble des méthodes scientifiques à partir desquelles
on organise, présente et analyse les données numériques, qui permettent de tirer des
conclusions et de prendre des décisions judicieuses.
❖
(au pluriel) ou série statistique : des collections de nombres présentées
sous forme de tableaux ou de graphiques
❖
=objet=individu=unité d’échantillonnage : est l’élément surlequel on mesure
des caractéristiques exemples : une personne, un poisson, une plante …
❖
est l’ensemble de tous les individusqui relèvent d’une définition donnée.
→ Population biologique : l’ensemble des individus de la même espèce qui
partagent un espace déterminé à un temps donné.
→ Population statistique : l’ensemble des individus ayant au moins une
caractéristique commune distinctive pour définir la population faisant l’objet
d’un échantillonnage aléatoire sur lequel portent les conclusions statistiques.
❖
désigne un fragment d’une population ou ensemble d’individus surlesquels
portent les données receuillies
Pour avoir des renseignements sur la population à partir de l’échantillon extrait :
l’échantillon doit être représentatif.
L’échantillon est représentatif si sa taille est suffisamment grande et s’il est extrait au hasard
de la population (tirage au sort).
Population statistique
Population biologique
❖
Echantillon
: caractéristique du vivant, elle se rencontre à tous les niveaux d’organisation
1. Niveau populationnel : les populations sont toutes différentes les unes
des autres par leurs caractéristiques sociologiques, leurs niveaux de vie
2. Niveau individuel : les caractéristiques quantitatives des individus
d’une même population extremement variables (la taille,le poids,les
dosages sanguins…)
3. Niveau cellulaire : à l’intérieur des cellules d’une même population
peuvent être différentes par exemple la durée de vie cellulaire ( le
temps qui sépare la naissance d’une cellule de sa division)celui-ci peut
varier dans les cellules de foie entre 10 et 30 heures.
(ou facteur ou caractère) : toute caractéristique prise par les individus
d’une population. Une variable statistique peut être quantitative ou qualitative
Variable quantitative : est une variable mesurable : poids, taille,
âge.Elle est souvent accompagnée d’une unité de mesure
On distingue deux sous catégories :
Variable continue : qui peut prendre un nombre infini de valeurs
dans un intervalle donné (ex : taille, pression diastolique) on la
mesure
Variable discrète : qui prend un nombre fini de valeurs (isolées)
(ex : nombre d’enfants dans une famille, le nombre d’œufs par
nichée).on la dénombre
Variable qualitative : est une variable non mesurable. Elle présente
un certain nombre de modalités
On distingue deux sous catégories :
Variable ordinale : elle peut bénéficier d’un classement
ordonnée ou d’un ordre naturel (ex : l'intensité de
douleur:nulle ; légère,Intense, insupportable).
➢ Variable nominale : il n’existe pas d’ordre naturel. Chaque
modalité est nommée (ex : les groupes sanguins :A,B,AB,O)
❖
: l’une des formes particulières d’un caractère. La couleur des yeux est un
caractère, ses modalités sont : bleu, vert, marron,…
❖
: (noté ni) nombre d’apparitions de la valeur associé à un
caractère dans un échantillon.
❖
(notée fi) : fi = ni / n
L’analyse statistique se subdivise en deux parties :
:
a pour but de décrire c-à-d de recueillir, résumer et représenter les données sous forme de
tableaux et sous forme graphes
Questions typiques :
*Représentation graphique
*Paramètres de position, de dispersion
consiste à obtenir des informations concernant la variable étudiée dans la population à
partir de celles obtenues sur l’échantillon et aboutir à des prises de décision sur la population
Questions typiques :
*estimation d’un paramètre inconnu
*tests statistiques pour la prise de décision
Dans ce chapitre, on va s’interesser à la statistique univariée qui concerne une seule variable
II.
Représentation numérique et graphique de l’information :
2.1 Pour une variable quantitative discrète :
soit la série statistique x1, x2,…, xn , le nombre n de valeurs est appelé l’effectif total
L’étendue : c’est la différence entre la valeur maximale et la valeur minimale
E = xmax - xmin
Une série statistique est souvent représentée par le tableau suivant :
Valeur de
X1
…..
Xk
variable
L
effectif
n1
…..
nk
a
représentation de ce type de tableau peut être sous deux formes :
total
N
Le diagramme en batons ou le polygone des effectifs
Exemple 1 :
Valeur
0
variable
effectif 9
1
2
3
4
5
6
7
total
7
5
3
5
3
3
1
36
Population étudiée : les familles
L’échantillon surlequel porte l’étude : les 36 familles
La variable étudiée : le nombre d’enfants par famille c’est une variable quantitative discrète
10
9
8
7
6
5
Diagramme en batons
4
Polygone des
effectifs
3
2
1
0
0
1
2
3
4
5
6
7
2.2Pour une variable quantitative continue :
On répartit la série en classes, la différence entre les bornes s’appelle amplitude
La demi somme des bornes d’une classe est appelée le centre de la classe
La représentation graphique est sous deux formes : l’histogramme ou le polygone des effectifs
Exemple 2 :
Le dosage du taux de glycémie chez 32 sujets :
Population étudiée : les sujets humains
Echantillon : sur lequel porte l’étude : 32 sujets
Variable étudiée : le taux de glycémie c’est une variable quantitative continue
2.3Pour une variable qualitative :
Il n’est plus alors posssible d’utiliser un repère cartésien puisque les modalités ne sont pas
mesurables.Diverses méthodes sont possibles nous indiquerons deux d’entre elles à partir de
l’exemple suivant
Exemple 3 :
On considère un échantillon de 100 enfants et on observe la réaction de chacun d’eux à un vaccin.On
a obtenu le tableau suivant :
Modalité
Pas de réaction
Faible réaction (rougeur)
Réaction moyenne (bouton)
Forte réaction (abcès)
Total
Effectif
25
30
30
15
100
Diagramme à secteurs ou "camembert"
pas de réaction
faible réaction.
réaction moyenne
forte réaction
15%
30%
25%
30%
diagramme en barres
35
30
25
20
15
10
5
0
pas de réaction
réaction faible
réaction moyenne
forte réaction
III.Paramètres caractéristiques d’une série statistique :
Les représentations d’une série statistique par un tableau ou par un graphe sont en général
insuffiantes pour décrire au mieux un phénomène. C’est pour cette raison que nous allons introduire
des paramètres caractéristiques qui sont un ensemble de valeurs qui reflètent mieux la série
statistique : * paramètres de position* paramètres de dispersion*
3.1Paramètres de position ou de la tendance centrale :
Ce sont des valeurs qui permettent de présenter de manière synthétique les données observées au
centre de la série statistique
A/ Moyenne arithmétique :
*Soit une série de n valeurs x1, x2,…xn d’une variable quantitative X alors la moyenne arithmétique :
̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒙𝒊
𝑿
𝒏
Exemple :
Si on considère l’âge de 7 étudiants : 20, 17, 23, 19, 16, 18 alors :
̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒙𝒊 =113/7 = 18.83 ans
𝑿
𝒏
*si on considère la série statistique représentée par le tableau suivant :
Valeur de
variable
Effectif
X1
…..
Xk
Total
n1
…..
nk
N
Alors la moyenne arithmétique est :
𝒏𝒌 𝒏𝒊
𝒏𝒌
̅ = 𝟏 ∑𝒏𝒌
𝑿
𝒊=𝟏 𝒏𝒊𝒙𝒊 = ∑𝒊=𝟏 𝒏 𝒙𝒊 = ∑𝒊=𝟏 𝒇𝒊𝒙𝒊
𝒏
Exemple 1:
Valeur
0
variable
effectif 9
1
2
3
4
5
6
7
total
7
5
3
5
3
3
1
36
Le nombre moyen d’enfants par famille est :
𝒏𝒊
𝟎∗𝟗+𝟏∗𝟕+𝟐∗𝟓+𝟑∗𝟑+𝟒∗𝟓+𝟓∗𝟑+𝟔∗𝟑+𝟕∗𝟏
̅ = 𝟏 ∑𝒏𝒌
∑𝒏𝒌
𝑿
𝒏𝒊𝒙𝒊
=
𝒙𝒊
=
= 2.38
𝒊=𝟏
𝒊=𝟏
𝒏
𝒏
𝟑𝟔
Exemple3 :
Le tableau suivant représente les longueurs (en mm) de la morue de la mer du nord
classe
(140 ; 145)
(145 ; 150)
(150 ; 155)
(155 ; 160)
(160 ; 165)
(165 ; 170)
(170 ; 175)
Effectif ni
1
1
9
17
16
3
3
Centre de classe
142.5
147.5
152.5
157.5
162.5
167.5
172.5
1
𝑋̅ = 𝑛 ∑7𝑖=1 𝑛𝑖𝑥𝑖 = 7959.85/50 = 159.2
Remarque :
Dans le cas où la variable est quantitative continue, les valeurs xi représentent les centres de classes
B/ Médiane :
La médiane est la valeur de la variable qui divise la série ordonnée en deux parties d’égal effectif il y a
50% des valeurs observées supérieures à la médiane et 50 % lui sont inférieures
Pour le calcul à partir des données à l’état brut, il suffit de les ordonner et on peut distinguer 2 cas :
Nombre de valeurs impair la médiane occupe la position
𝑛+1
2
Exemple :
3, 4, 4, 5, 6, 8, 8, 8, 10
n= 9 alors la médiane est
Me = 6
Nombre de valeurs est pair alors la médiane est la demi somme des deux valeurs du milieu
Exemple :
3, 4, 4, 5, 6, 8, 8, 10
n=8 alors la médiane est :
Me = (5+6)/2 = 11/2 =5.5
*Pour le cas continu, on utilise les effectifs cumulés croissants et on cherche le cas échéant par
interpolation, la valeur de la variable correspondante à 50% de l’effectif total.
La formule de la médiane est :
𝑴𝒆 = 𝒂𝒊 + 𝑳
𝟎. 𝟓 ∗ 𝒏 − 𝒏𝒄𝒊−𝟏
𝒏𝒄𝒊 − 𝒏𝒄𝒊−𝟏
Avec : (ai ; bi) est la classe de la médiane d’effectif cumulé croissant 50 % de l’effectif total
L = bi-ai : la longueur de la classe de la médiane
𝑛𝑖𝑐 : l’effectif cumulé au point bi
𝑐
𝑛𝑖−1
: l’effectif cumulé au point ai
Exemple 3:
Le tableau suivant représente les longueurs (en mm) de la morue de la mer du nord
classes
(140 ; 145)
(145 ; 150)
(150 ; 155)
(155 ; 160)
(160 ; 165)
(165 ; 170)
(170 ;175)
Effectifs ni
1
1
9
17
16
3
3
Effectis cumulésnc
1
2
11
28
44
47
50
La classe de la médiane a pour effectif cumulé n/2 =50/2 =25 c’est la classe (ai;bi) = (155 ; 160)
𝟎. 𝟓 ∗ 𝒏 − 𝒏𝒄𝒊−𝟏
𝑴𝒆 = 𝒂𝒊 + 𝑳
𝒏𝒄𝒊 − 𝒏𝒄𝒊−𝟏
𝑴𝒆 = 𝟏𝟓𝟓 + 𝟓
𝟎.𝟓∗𝟓𝟎−𝟏𝟏
𝟐𝟖−𝟏𝟏
= 159.117
Propriétés :
1/si la médiane et la moyenne sont égales alors la série est symétrique
2/ lorsque la série est allongée vers les grandes valeurs la médiane est inférieure à la moyenne
3/ lorsque la série est allongée vers les petites valeurs la médiane est supérieure à la moyenne
C/ Mode :
Le mode est la valeur de la variable qui a l’effectif le plus élevé c’est la valeur dominante
Le mode peut ne pas exister et, même s’il existe, peut ne pas être unique (dans le cas continu on
parle de classe modale).
Exemples :
1/ la série 2,2,5,7,9,9,9,10,10,11,12,18 a comme mode Mo=9
2/ la série 3, 5, 8, 10, 12,15, 16 n’a pas de mode
3/ la série 2, 3, 4, 4, 4, 5, 5, 7, 7,7, 9 a deux modes 4 et 7 la série est bimodale
*Une série ayant un seul mode est appelée uni modale.
*Pour le cas continu : on applique la formule suivante :
𝑴𝑶 = 𝒂𝒊 +
𝜟𝟏
𝒍
𝜟𝟏 + 𝜟𝟐 𝒊
Où (ai ;bi ) : la classe modale qui a l’effectif le plus élevé
Li : l’amplitude de la classe modale
∆1 : la différence entre l’effectif de la classe modale et celui de la classe précédente
∆2 : la différence entre l’effectif de la classe modale et celui de la classe suivante
Exemple3 :
La classe modale : (155 ; 160)
𝑀𝑂 = 155 + 5
(17 − 9)
(17 − 9) + (17 − 16)
𝑀𝑂 = 159.4444
3.2 Paramètres de dispersion :
Les paramètres de dispersion permettent d’évaluer les écarts (différences) entre les valeurs de la
série et d’évaluer la dispersion (répartition) des valeurs de la série par rapport aux valeurs centrales
A/ Etendue :
Est la différence entre les valeurs extrêmes
Exemple :
La série suivante représente l’âge de personnes : 16, 17, 19, 20, 23, 24 ans
L’étendue est 24-16 = 8 ans
B/Variance :
*si les données sont à l’état brut, la variance de l’échantillon est :
𝟏
̅ )𝟐
S²ech = 𝒏 ∑(𝒙𝒊 − 𝑿
𝟏
̅𝟐
S²ech = (𝒏 ∑ 𝒙𝒊 𝟐 ) — 𝑿
*si les données sont regroupées la variance de l’échantillon est :
𝟏
̅ )𝟐 = ∑ 𝒇𝒊 (𝒙𝒊 − 𝑿
̅ )𝟐
S²ech = 𝒏 ∑ 𝒏𝒊 (𝒙𝒊 − 𝑿
𝟏
̅𝟐
S²ech = (𝒏 ∑ 𝒏𝒊 𝒙𝒊 𝟐 ) — 𝑿
Exemple 1 :
La variance est donnée par la formule
1
S²ech = (𝑛 ∑ 𝑛𝑖 𝑥𝑖 2 ) — 𝑋̅ 2
0²∗9+12 ∗7+22 ∗5+32 ∗3+42 ∗5+52 ∗3+62 ∗3+72 2∗1
) – (2.38)²
36
=(
S²ech =4.5016
Exemple3:
La variance est donnée par la formule :
1
S²ech = ( ∑ 𝑛𝑖 𝑥𝑖 2 ) — 𝑋̅ 2
𝑛
S²ech = (1268960.76 / 50 ) - (159.2^2)
S²ech = 35.61
C/ Ecart-type:
Est la racine carrée de la variance
Sech = √𝑆²𝑒𝑐ℎ
Exemple1 :
Sech = 2.12169
Exemple3 :
Sech = 5.9674
D/Quartiles :
Sont les valeurs qui divisent la série ordonnée en 4 parties, il existe 3 quartiles :
*le premier quartile : est la valeur qui divise la série en deux parties telle que 25 % des valeurs lui
sont inférieures et 75 % lui sont supérieures
*le deuxième quartile : n’est autre que la médiane
*le troisième quartile : est la valeur qui divise la série en deux parties telle que 75% des valeurs lui
sont inférieures et 25 % lui sont supérieures
*Pour une variable discrète :
Exemple :
3, 4, 7, 9, 13, 18, 20, 24, 30
Q1 =4
Q2 =Me =13
Q3 =20
*Pour une variable continue :
On utilise les formules suivantes:
𝑸𝟏 = 𝒂𝒊 + 𝑳
𝟎.𝟐𝟓∗𝒏−𝒏𝒄𝒊−𝟏
𝑸𝟑 = 𝒂𝒊 + 𝑳
𝒏𝒄𝒊 −𝒏𝒄𝒊−𝟏
Exemple 3 :
La classe de Q1 est (155 ; 160)
𝑄1 = 155 + 5
0.25∗50−11
=
28−11
155.441
La classe de Q3 : (160 ; 165)
𝑄3 = 160 + 5
0.75∗50−28
44−28
= 162.96
𝟎.𝟕𝟓∗𝒏−𝒏𝒄𝒊−𝟏
𝒏𝒄𝒊 −𝒏𝒄𝒊−𝟏
E/ Coefficient de variation :
̅
Cv = Sech / 𝒙
Pour comparer deux séries statistiques dont les données sont exprimées dans des unités différentes
(c’est-à-dire deux séries dont chacune concerne un caractère différent) on utilise le coefficient de
variation
Exemple :
Série A : 𝑥̅ =2.99
; Sech =1.75 ; Cv =0.58
Série B : 𝑥̅ = 3.424
; Sech =0.52 ; Cv = 0.15
La série A est plus dispersée que la série B
F/ Richesse :
C’est un paramètre qui concerne un caractère qualitatif.Il représentele nombre d’espèces recensées
dans un milieu.La richesse est le nombre de modalités observées au moins une fois dans l’échantillon
Exemple :
Les proies de la chouette
Type de proie
Campagnol
Mulot
Souris
Lérot
Le rat noir
Musaraigne
Martinet
Grenouille
Effectif
59
23
1
1
1
9
1
1
La richesse est égale à 8
G/ Diversité :
Elle indique la façon dont les éléments sont répartis entre les différentes modalités représentées
dans l’échantillon
H = ∑𝒌𝒊=𝟏 𝒑𝒊 ∗ 𝒍𝒐𝒈𝟐(𝒑𝒊)
Avec K : le nombre de modalités représentées par au moins un élément
Pi = ni / n est la proportion ou la fréquence d’éléments (individus) appartenant à la même
modalité (l’espèce) i
Exemple :
Calculer la diversité du peuplement de passereaux ?
Espèce
Fauvette à flanc
marron
Pinson à gorge blanche
Fauvette triste
Pinson familier
Pic flamboyant
Total
La diversité est alors :
H = ∑5𝑖=1 𝑝𝑖 ∗ 𝑙𝑜𝑔2(𝑝𝑖)
H = 2.1392
Nombre de territoires
42
Fréquence
0.3
-pi*log2 pi
0.521
27
27
6
38
140
0.1928
0.1928
0.042
0.2714
0.999
0.4578
0.4578
0.192
0.5106
2.1392
Téléchargement