I. Généralités et définitions : ❖ (au singulier):est l’ensemble des méthodes scientifiques à partir desquelles on organise, présente et analyse les données numériques, qui permettent de tirer des conclusions et de prendre des décisions judicieuses. ❖ (au pluriel) ou série statistique : des collections de nombres présentées sous forme de tableaux ou de graphiques ❖ =objet=individu=unité d’échantillonnage : est l’élément surlequel on mesure des caractéristiques exemples : une personne, un poisson, une plante … ❖ est l’ensemble de tous les individusqui relèvent d’une définition donnée. → Population biologique : l’ensemble des individus de la même espèce qui partagent un espace déterminé à un temps donné. → Population statistique : l’ensemble des individus ayant au moins une caractéristique commune distinctive pour définir la population faisant l’objet d’un échantillonnage aléatoire sur lequel portent les conclusions statistiques. ❖ désigne un fragment d’une population ou ensemble d’individus surlesquels portent les données receuillies Pour avoir des renseignements sur la population à partir de l’échantillon extrait : l’échantillon doit être représentatif. L’échantillon est représentatif si sa taille est suffisamment grande et s’il est extrait au hasard de la population (tirage au sort). Population statistique Population biologique ❖ Echantillon : caractéristique du vivant, elle se rencontre à tous les niveaux d’organisation 1. Niveau populationnel : les populations sont toutes différentes les unes des autres par leurs caractéristiques sociologiques, leurs niveaux de vie 2. Niveau individuel : les caractéristiques quantitatives des individus d’une même population extremement variables (la taille,le poids,les dosages sanguins…) 3. Niveau cellulaire : à l’intérieur des cellules d’une même population peuvent être différentes par exemple la durée de vie cellulaire ( le temps qui sépare la naissance d’une cellule de sa division)celui-ci peut varier dans les cellules de foie entre 10 et 30 heures. (ou facteur ou caractère) : toute caractéristique prise par les individus d’une population. Une variable statistique peut être quantitative ou qualitative Variable quantitative : est une variable mesurable : poids, taille, âge.Elle est souvent accompagnée d’une unité de mesure On distingue deux sous catégories : Variable continue : qui peut prendre un nombre infini de valeurs dans un intervalle donné (ex : taille, pression diastolique) on la mesure Variable discrète : qui prend un nombre fini de valeurs (isolées) (ex : nombre d’enfants dans une famille, le nombre d’œufs par nichée).on la dénombre Variable qualitative : est une variable non mesurable. Elle présente un certain nombre de modalités On distingue deux sous catégories : Variable ordinale : elle peut bénéficier d’un classement ordonnée ou d’un ordre naturel (ex : l'intensité de douleur:nulle ; légère,Intense, insupportable). ➢ Variable nominale : il n’existe pas d’ordre naturel. Chaque modalité est nommée (ex : les groupes sanguins :A,B,AB,O) ❖ : l’une des formes particulières d’un caractère. La couleur des yeux est un caractère, ses modalités sont : bleu, vert, marron,… ❖ : (noté ni) nombre d’apparitions de la valeur associé à un caractère dans un échantillon. ❖ (notée fi) : fi = ni / n L’analyse statistique se subdivise en deux parties : : a pour but de décrire c-à-d de recueillir, résumer et représenter les données sous forme de tableaux et sous forme graphes Questions typiques : *Représentation graphique *Paramètres de position, de dispersion consiste à obtenir des informations concernant la variable étudiée dans la population à partir de celles obtenues sur l’échantillon et aboutir à des prises de décision sur la population Questions typiques : *estimation d’un paramètre inconnu *tests statistiques pour la prise de décision Dans ce chapitre, on va s’interesser à la statistique univariée qui concerne une seule variable II. Représentation numérique et graphique de l’information : 2.1 Pour une variable quantitative discrète : soit la série statistique x1, x2,…, xn , le nombre n de valeurs est appelé l’effectif total L’étendue : c’est la différence entre la valeur maximale et la valeur minimale E = xmax - xmin Une série statistique est souvent représentée par le tableau suivant : Valeur de X1 ….. Xk variable L effectif n1 ….. nk a représentation de ce type de tableau peut être sous deux formes : total N Le diagramme en batons ou le polygone des effectifs Exemple 1 : Valeur 0 variable effectif 9 1 2 3 4 5 6 7 total 7 5 3 5 3 3 1 36 Population étudiée : les familles L’échantillon surlequel porte l’étude : les 36 familles La variable étudiée : le nombre d’enfants par famille c’est une variable quantitative discrète 10 9 8 7 6 5 Diagramme en batons 4 Polygone des effectifs 3 2 1 0 0 1 2 3 4 5 6 7 2.2Pour une variable quantitative continue : On répartit la série en classes, la différence entre les bornes s’appelle amplitude La demi somme des bornes d’une classe est appelée le centre de la classe La représentation graphique est sous deux formes : l’histogramme ou le polygone des effectifs Exemple 2 : Le dosage du taux de glycémie chez 32 sujets : Population étudiée : les sujets humains Echantillon : sur lequel porte l’étude : 32 sujets Variable étudiée : le taux de glycémie c’est une variable quantitative continue 2.3Pour une variable qualitative : Il n’est plus alors posssible d’utiliser un repère cartésien puisque les modalités ne sont pas mesurables.Diverses méthodes sont possibles nous indiquerons deux d’entre elles à partir de l’exemple suivant Exemple 3 : On considère un échantillon de 100 enfants et on observe la réaction de chacun d’eux à un vaccin.On a obtenu le tableau suivant : Modalité Pas de réaction Faible réaction (rougeur) Réaction moyenne (bouton) Forte réaction (abcès) Total Effectif 25 30 30 15 100 Diagramme à secteurs ou "camembert" pas de réaction faible réaction. réaction moyenne forte réaction 15% 30% 25% 30% diagramme en barres 35 30 25 20 15 10 5 0 pas de réaction réaction faible réaction moyenne forte réaction III.Paramètres caractéristiques d’une série statistique : Les représentations d’une série statistique par un tableau ou par un graphe sont en général insuffiantes pour décrire au mieux un phénomène. C’est pour cette raison que nous allons introduire des paramètres caractéristiques qui sont un ensemble de valeurs qui reflètent mieux la série statistique : * paramètres de position* paramètres de dispersion* 3.1Paramètres de position ou de la tendance centrale : Ce sont des valeurs qui permettent de présenter de manière synthétique les données observées au centre de la série statistique A/ Moyenne arithmétique : *Soit une série de n valeurs x1, x2,…xn d’une variable quantitative X alors la moyenne arithmétique : ̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒙𝒊 𝑿 𝒏 Exemple : Si on considère l’âge de 7 étudiants : 20, 17, 23, 19, 16, 18 alors : ̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒙𝒊 =113/7 = 18.83 ans 𝑿 𝒏 *si on considère la série statistique représentée par le tableau suivant : Valeur de variable Effectif X1 ….. Xk Total n1 ….. nk N Alors la moyenne arithmétique est : 𝒏𝒌 𝒏𝒊 𝒏𝒌 ̅ = 𝟏 ∑𝒏𝒌 𝑿 𝒊=𝟏 𝒏𝒊𝒙𝒊 = ∑𝒊=𝟏 𝒏 𝒙𝒊 = ∑𝒊=𝟏 𝒇𝒊𝒙𝒊 𝒏 Exemple 1: Valeur 0 variable effectif 9 1 2 3 4 5 6 7 total 7 5 3 5 3 3 1 36 Le nombre moyen d’enfants par famille est : 𝒏𝒊 𝟎∗𝟗+𝟏∗𝟕+𝟐∗𝟓+𝟑∗𝟑+𝟒∗𝟓+𝟓∗𝟑+𝟔∗𝟑+𝟕∗𝟏 ̅ = 𝟏 ∑𝒏𝒌 ∑𝒏𝒌 𝑿 𝒏𝒊𝒙𝒊 = 𝒙𝒊 = = 2.38 𝒊=𝟏 𝒊=𝟏 𝒏 𝒏 𝟑𝟔 Exemple3 : Le tableau suivant représente les longueurs (en mm) de la morue de la mer du nord classe (140 ; 145) (145 ; 150) (150 ; 155) (155 ; 160) (160 ; 165) (165 ; 170) (170 ; 175) Effectif ni 1 1 9 17 16 3 3 Centre de classe 142.5 147.5 152.5 157.5 162.5 167.5 172.5 1 𝑋̅ = 𝑛 ∑7𝑖=1 𝑛𝑖𝑥𝑖 = 7959.85/50 = 159.2 Remarque : Dans le cas où la variable est quantitative continue, les valeurs xi représentent les centres de classes B/ Médiane : La médiane est la valeur de la variable qui divise la série ordonnée en deux parties d’égal effectif il y a 50% des valeurs observées supérieures à la médiane et 50 % lui sont inférieures Pour le calcul à partir des données à l’état brut, il suffit de les ordonner et on peut distinguer 2 cas : Nombre de valeurs impair la médiane occupe la position 𝑛+1 2 Exemple : 3, 4, 4, 5, 6, 8, 8, 8, 10 n= 9 alors la médiane est Me = 6 Nombre de valeurs est pair alors la médiane est la demi somme des deux valeurs du milieu Exemple : 3, 4, 4, 5, 6, 8, 8, 10 n=8 alors la médiane est : Me = (5+6)/2 = 11/2 =5.5 *Pour le cas continu, on utilise les effectifs cumulés croissants et on cherche le cas échéant par interpolation, la valeur de la variable correspondante à 50% de l’effectif total. La formule de la médiane est : 𝑴𝒆 = 𝒂𝒊 + 𝑳 𝟎. 𝟓 ∗ 𝒏 − 𝒏𝒄𝒊−𝟏 𝒏𝒄𝒊 − 𝒏𝒄𝒊−𝟏 Avec : (ai ; bi) est la classe de la médiane d’effectif cumulé croissant 50 % de l’effectif total L = bi-ai : la longueur de la classe de la médiane 𝑛𝑖𝑐 : l’effectif cumulé au point bi 𝑐 𝑛𝑖−1 : l’effectif cumulé au point ai Exemple 3: Le tableau suivant représente les longueurs (en mm) de la morue de la mer du nord classes (140 ; 145) (145 ; 150) (150 ; 155) (155 ; 160) (160 ; 165) (165 ; 170) (170 ;175) Effectifs ni 1 1 9 17 16 3 3 Effectis cumulésnc 1 2 11 28 44 47 50 La classe de la médiane a pour effectif cumulé n/2 =50/2 =25 c’est la classe (ai;bi) = (155 ; 160) 𝟎. 𝟓 ∗ 𝒏 − 𝒏𝒄𝒊−𝟏 𝑴𝒆 = 𝒂𝒊 + 𝑳 𝒏𝒄𝒊 − 𝒏𝒄𝒊−𝟏 𝑴𝒆 = 𝟏𝟓𝟓 + 𝟓 𝟎.𝟓∗𝟓𝟎−𝟏𝟏 𝟐𝟖−𝟏𝟏 = 159.117 Propriétés : 1/si la médiane et la moyenne sont égales alors la série est symétrique 2/ lorsque la série est allongée vers les grandes valeurs la médiane est inférieure à la moyenne 3/ lorsque la série est allongée vers les petites valeurs la médiane est supérieure à la moyenne C/ Mode : Le mode est la valeur de la variable qui a l’effectif le plus élevé c’est la valeur dominante Le mode peut ne pas exister et, même s’il existe, peut ne pas être unique (dans le cas continu on parle de classe modale). Exemples : 1/ la série 2,2,5,7,9,9,9,10,10,11,12,18 a comme mode Mo=9 2/ la série 3, 5, 8, 10, 12,15, 16 n’a pas de mode 3/ la série 2, 3, 4, 4, 4, 5, 5, 7, 7,7, 9 a deux modes 4 et 7 la série est bimodale *Une série ayant un seul mode est appelée uni modale. *Pour le cas continu : on applique la formule suivante : 𝑴𝑶 = 𝒂𝒊 + 𝜟𝟏 𝒍 𝜟𝟏 + 𝜟𝟐 𝒊 Où (ai ;bi ) : la classe modale qui a l’effectif le plus élevé Li : l’amplitude de la classe modale ∆1 : la différence entre l’effectif de la classe modale et celui de la classe précédente ∆2 : la différence entre l’effectif de la classe modale et celui de la classe suivante Exemple3 : La classe modale : (155 ; 160) 𝑀𝑂 = 155 + 5 (17 − 9) (17 − 9) + (17 − 16) 𝑀𝑂 = 159.4444 3.2 Paramètres de dispersion : Les paramètres de dispersion permettent d’évaluer les écarts (différences) entre les valeurs de la série et d’évaluer la dispersion (répartition) des valeurs de la série par rapport aux valeurs centrales A/ Etendue : Est la différence entre les valeurs extrêmes Exemple : La série suivante représente l’âge de personnes : 16, 17, 19, 20, 23, 24 ans L’étendue est 24-16 = 8 ans B/Variance : *si les données sont à l’état brut, la variance de l’échantillon est : 𝟏 ̅ )𝟐 S²ech = 𝒏 ∑(𝒙𝒊 − 𝑿 𝟏 ̅𝟐 S²ech = (𝒏 ∑ 𝒙𝒊 𝟐 ) — 𝑿 *si les données sont regroupées la variance de l’échantillon est : 𝟏 ̅ )𝟐 = ∑ 𝒇𝒊 (𝒙𝒊 − 𝑿 ̅ )𝟐 S²ech = 𝒏 ∑ 𝒏𝒊 (𝒙𝒊 − 𝑿 𝟏 ̅𝟐 S²ech = (𝒏 ∑ 𝒏𝒊 𝒙𝒊 𝟐 ) — 𝑿 Exemple 1 : La variance est donnée par la formule 1 S²ech = (𝑛 ∑ 𝑛𝑖 𝑥𝑖 2 ) — 𝑋̅ 2 0²∗9+12 ∗7+22 ∗5+32 ∗3+42 ∗5+52 ∗3+62 ∗3+72 2∗1 ) – (2.38)² 36 =( S²ech =4.5016 Exemple3: La variance est donnée par la formule : 1 S²ech = ( ∑ 𝑛𝑖 𝑥𝑖 2 ) — 𝑋̅ 2 𝑛 S²ech = (1268960.76 / 50 ) - (159.2^2) S²ech = 35.61 C/ Ecart-type: Est la racine carrée de la variance Sech = √𝑆²𝑒𝑐ℎ Exemple1 : Sech = 2.12169 Exemple3 : Sech = 5.9674 D/Quartiles : Sont les valeurs qui divisent la série ordonnée en 4 parties, il existe 3 quartiles : *le premier quartile : est la valeur qui divise la série en deux parties telle que 25 % des valeurs lui sont inférieures et 75 % lui sont supérieures *le deuxième quartile : n’est autre que la médiane *le troisième quartile : est la valeur qui divise la série en deux parties telle que 75% des valeurs lui sont inférieures et 25 % lui sont supérieures *Pour une variable discrète : Exemple : 3, 4, 7, 9, 13, 18, 20, 24, 30 Q1 =4 Q2 =Me =13 Q3 =20 *Pour une variable continue : On utilise les formules suivantes: 𝑸𝟏 = 𝒂𝒊 + 𝑳 𝟎.𝟐𝟓∗𝒏−𝒏𝒄𝒊−𝟏 𝑸𝟑 = 𝒂𝒊 + 𝑳 𝒏𝒄𝒊 −𝒏𝒄𝒊−𝟏 Exemple 3 : La classe de Q1 est (155 ; 160) 𝑄1 = 155 + 5 0.25∗50−11 = 28−11 155.441 La classe de Q3 : (160 ; 165) 𝑄3 = 160 + 5 0.75∗50−28 44−28 = 162.96 𝟎.𝟕𝟓∗𝒏−𝒏𝒄𝒊−𝟏 𝒏𝒄𝒊 −𝒏𝒄𝒊−𝟏 E/ Coefficient de variation : ̅ Cv = Sech / 𝒙 Pour comparer deux séries statistiques dont les données sont exprimées dans des unités différentes (c’est-à-dire deux séries dont chacune concerne un caractère différent) on utilise le coefficient de variation Exemple : Série A : 𝑥̅ =2.99 ; Sech =1.75 ; Cv =0.58 Série B : 𝑥̅ = 3.424 ; Sech =0.52 ; Cv = 0.15 La série A est plus dispersée que la série B F/ Richesse : C’est un paramètre qui concerne un caractère qualitatif.Il représentele nombre d’espèces recensées dans un milieu.La richesse est le nombre de modalités observées au moins une fois dans l’échantillon Exemple : Les proies de la chouette Type de proie Campagnol Mulot Souris Lérot Le rat noir Musaraigne Martinet Grenouille Effectif 59 23 1 1 1 9 1 1 La richesse est égale à 8 G/ Diversité : Elle indique la façon dont les éléments sont répartis entre les différentes modalités représentées dans l’échantillon H = ∑𝒌𝒊=𝟏 𝒑𝒊 ∗ 𝒍𝒐𝒈𝟐(𝒑𝒊) Avec K : le nombre de modalités représentées par au moins un élément Pi = ni / n est la proportion ou la fréquence d’éléments (individus) appartenant à la même modalité (l’espèce) i Exemple : Calculer la diversité du peuplement de passereaux ? Espèce Fauvette à flanc marron Pinson à gorge blanche Fauvette triste Pinson familier Pic flamboyant Total La diversité est alors : H = ∑5𝑖=1 𝑝𝑖 ∗ 𝑙𝑜𝑔2(𝑝𝑖) H = 2.1392 Nombre de territoires 42 Fréquence 0.3 -pi*log2 pi 0.521 27 27 6 38 140 0.1928 0.1928 0.042 0.2714 0.999 0.4578 0.4578 0.192 0.5106 2.1392