09 09 16 8h30 10h30 statdescriptive lemdani

2016-2017
Sciences Analytiques
STATISTIQUE DESCRIPTIVE
– UE :8
Semaine : n°1 (du 05/09/2016 au
09/09/2016)
Date : 09/09/2016
Heure : de 8h30 à
10h30
Binôme : n°19
Professeur : Pr. M. Lemdani
Correcteur :
Suite et fin du cours du 08/09/2016
I)
MOYENNE ET VARIANCE
VOIR COURS DU 08/09/2016
II)
MEDIANE ET QUARTILES
A)
La médiane
B)
Les Quartiles
III)
NOTION DE DISTRIBUTION D'UNE VARIABLE
A)
Dispersion et densité de probabilité
B)
Détermination de la forme de la distribution
C)
Rappel sur l'estimation
D)
Rappel sur les décimales
E)
La Normalité
1)
TABLE de la loi normale
2)
Valeurs importantes
3)
Log-normalité
IV)
ECHANTILLONAGE
A)
Échantillonnage en moyenne
B)
Ecart-type de la moyenne
1/11
2016-2017
II)
Sciences Analytiques
MEDIANE ET QUARTILES
Il s'agit d'un alternatif à l'utilisation de l'écart type et de la moyenne. Toutefois l'utilisation de ces deux
dernières est privilégiées, il existe cependant des situations où l'utilisation de la moyenne et de l'écarttype n'est pas adaptées.
La moyenne permettant de mesurer la tendance centrale
L'écart-type permettant de mesurer la dispersion
A)
La médiane
La médiane : est l'observation centrale. C'est la valeur telle que l'on a 50% des observations
Avant ET Après.
Pour la trouver il suffit de ranger les valeurs par ordre croissant.
Exemple :
X1 la plus petite observation (et non la première mesuré dans le temps!), X2 la deuxième plus
grande, etc...
Calcul la médiane :
en fonction d'un nombre d'observation pair ou impair ?
Exemple :
Si on a 5 observations, la 3ème est la médiane (on en a 2 avant et 2 après)
Si on a 4 observations, c'est la moyenne de la 2ème et de la 3ème valeurs
Pour les fans de formules :
Me = (n+1) / 2
Sachant que n est le nombre d'observation
2/11
2016-2017
Sciences Analytiques
La médiane est donc une mesure alternative à la moyenne de tendance centrale. Toutefois, la médiane et
la moyenne peuvent se confondre : si les observations sont bien symétriques la valeur centrale est à la
fois la médiane et la moyenne. Mais si la dispersion est asymétrique, la moyenne et la médiane
s'éloigneront.
B)
Les Quartiles
Même principe, on a la valeur minimale et la valeur max , et la valeur médiane.
Nous nous intéressons ici à une mesure de la dispersion.
L'écart type décrivant la dispersion autour de la moyenne, ici le quartile illustre la dispersion autour de
la médiane.
L'idée est de rester sur ce principe de partage de l'échantillon.
Avec la médiane on a coupé l'échantillon en 2. Pour le quartile nous le coupons donc en 4.
Les Quartiles :
les valeur a partir de laquelle on a
-le quart d'observation le plus faible :
Q1, le premier quartile
-le quart d'observation le plus fort :
Q3, le troisième quartile
Si nous nous situons entre Q1 et Q3, nous avons la moitié des observations qui sont ni trop petites ni trop
grande. Cet espace est appelé l'intervalle inter-quartile.
Calcul des Quartiles :
On peut très bien le faire « à la main », ranger les observations et se placer au quart. Ou sinon utiliser la
formule.
Formules :
Q1 = (n+1) / 4
Q3 = ¾ (n+1)
Avec n le nombre d'observation
Ces paramètres sont intéressants à calculer mais nous utiliserons le plus souvent la moyenne et l'écarttype, sauf si ces deux paramètres ne sont pas pertinent.
3/11
2016-2017
III)
Sciences Analytiques
NOTION DE DISTRIBUTION D'UNE VARIABLE
La distribution de la variable est une notion qui va être exhaustive en terme de caractérisation de la
variable.
Si on reprend l'exemple du titrage, et que l'on trouve une moyenne des variables observées de 8 mL, on
ne sait pas si nos valeurs sont systématiquement entre 7,95 et 8,05 ou entre 7 et 9.
La moyenne et l'écart-type ne suffisent pas à décrire l'ensemble des données.
Nous avons besoin de décrire la distribution pour être complet.
A)
Dispersion et densité de probabilité
Avec ces 2 séries d'observations :
À travers ce dessin est-ce que le fait de donner la moyenne, l'écart-type suffit à avoir une vue d'ensemble
des observations ?
Echantillon 1 : la moyenne et le point d équilibre c'est x1.
Echantillon 2 : si on regarde les 5 observation, dans les 3, il y en a 2 qui sont très grandes. La moyenne
peut être placé au même endroit.
-Dans les 2 séries on a la même moyenne. Mais une moyenne identique ne signifie pas pour que l'on ait
le même genre de valeurs.
Dans le premier échantillon nos valeurs sont uniformes, alors que dans le deuxième échantillon, on voit
que beaucoup d'observations sont très éloignées.
-De même au niveau de l'écart-type. Si on calcul l'écart type on aurait a peu près la même valeur dans les
deux échantillons.
Ce qui montre bien que la moyenne et de l'écart-type ne nous donne pas une connaissance complète des
observations.
Rappel : la moyenne donne la tendance centrale (au niveau de quelle valeur je me trouve) : l'écart-type
donne la dispersion (de combien je me dispersion, mais on ne sait pas de comment je me disperse, c'est à
dire plus/moins à gauche ou à droite).
B)
Détermination de la forme de la distribution
Pour être complet en terme d'informations de l'échantillon, il faut prendre l'ensemble des données et
utiliser une représentation graphique qui rend compte de la répartition et distribution des données.
On utilisera un histogramme.
L'histogramme décrit parfaitement la densité au niveau de l'échantillon.
Exemple : 50 déterminations à deux décimales près du pH d'une solution tampon ont fourni les résultats suivants
4/11
2016-2017
Sciences Analytiques
Valeurs
5,12
5,13
5,14
5,15
5,16
5,17
5,18
Fréquence
3
5
9
13
11
7
2
Nous notons une forme d'erreur aléatoire au niveau de l'imprécision.
Cette imprécision est telle plus à droite ou à gauche ?
Quelle est la forme de répartition qui permet de penser la former de l'erreur ?
Nous pouvons y répondre en dessinant l'histogramme de ce tableau.
C)
Rappel sur l'estimation (différence entre moyenne de l'échantillon et de
la population)
Il s'agit ici d'une solution tampon. C'est à dire qu'elle a une valeur bien précise pour son pH.
Toutes les valeurs relevées sont en réalité des mesures et non pas le réel pH (théorique).
Quand on calcul la moyenne et l'écart-type des 50 valeurs :
x(moy) =5,1506
et s(écart-type) =0,015174
Si on refait une deuxième série de 50 observations, la moyenne et l'écart-type ne seront pas égales aux
valeurs précédentes.
C'est à dire que « x » et « s », sont la moyenne et l'écart-type des 50 observations, c'est à dire de
l'échantillon.
La vraie valeur du pH , c'est la moyenne de la population « μ » .
-Lorsque l'on effectue un dosage on essaie de se rapprocher de la moyenne mais de la VRAIE
moyenne c'est à dire de la POPULATION (avec lettre GRECQUES « μ »).
– Même chose pour l'écart type en POPULATION «σ » .
5/11
2016-2017
D)
Sciences Analytiques
Rappel sur les décimales
La calculatrice donne : x(moy)=5,1506
Nous ne donnerons jamais toutes les décimales car toutes les valeurs sont approchées, le pH mètre ne
donnant que 2 décimales.
Cependant, la moyenne étant plus précise que l'ensemble d'observations, nous pouvons nous permettre de
la noter avec une décimale de plus.
Exemple :
Dans notre cas ici nous l'a donnons donc avec trois décimales d'où :
« x(moy) » =5,151
σ =0,015
Ce qui nous donne la forme de la densité telle que nous la percevons au niveau de l'échantillon.
La distribution est relativement symétrique, elle rappelle la densité de la Loi Normale (courbe de
Gauss).
E)
La Normalité
On trouve la Normalité (Courbe de Gauss, courbe en cloche) si l'on obtient cette forme pour la densité.
Ce qui veut dire que nos valeurs ont une certaine moyenne. et que cette moyenne et vraiment le centre
de symétrie, avec diminution de manière symétrique à droite et à gauche selon une fonction
mathématique.
Notation :
Si la normalité est démontré on note :
6/11
2016-2017
Sciences Analytiques
X ~ N( μ ; σ )
X : la variable observée
~ : « suit »
N : la loi Normale
1)
TABLE de la loi normale (Annexe 1) :
Toutes les lois normales se ramènent à la « Loi normale centré réduite ».
La moyenne de cette courbe de Gauss est 0.
Son écart-type est de 1.
Remarque :On a aucune variable biologique qui est centrée réduite car ca voudra dire qu'elle a pour
moyenne 0. Or une moyenne biologique est rarement négative. Nous travaillons avec cette Loi avec des
variables purement mathématiques et fictives.
2)
Valeurs importantes
Avec cette courbe, il est important de connaître les valeurs de référence.
Rappel : Quand on prend la Loi normale, la surface totale en dessous de la courbe est de 1. Elle
correspond à la probabilité d'être entre l'infinie – et + . Étant donné que c'est une Surface finie ( et
totale).
7/11
2016-2017
Sciences Analytiques
Ce principe là permet de définir des valeurs importantes :
Tout ce qui relève de la statistique renvoie à l'aléatoire, on n'est donc jamais certain. De ce fait, on
remplace définit la certitude par le niveau de confiance.
Dans les valeurs importantes :
La zone de confiance à 95%
Les valeurs entre lesquelles on peut être confiants à 95% d'avoir mon résultat donc entre -a et +a.
A l'extérieur il reste donc 5%. Et donc si l'on prend qu'un seul côté 2,5%S
Si on applique la table, la partie hachurée en dehors de « a » correspond à «G( u )».
Comme on prend « G(a) » = 2,5% = 0,025 on a alors 1,96.
Cela signifie que entre -1,96 ; +1,96 : on a 95% de chance d'avoir raison.
Remarque : On arrondie souvent à 2.
L'intervalle -3;+3
Nous obtenons avec cette intervalle une zone de confiance de 97%. Pourcentage utile dans les cartes de
contrôles.
3)
Log-normalité
La loi Normale permet de faciliter les calculs.
On n'a pas toujours une répartition qui suit cette Normalité. De ce fait la démarche statistique est plus
compliquée. Le moyen pour simplifier les choses consiste à appliquer la loi Log-normalité.
On dit alors que : » Une variable X suit la loi « Log-normal » si le Logarithme de X suit la loi
Normal. »
ln(X) ~ N (x ; x)
8/11
2016-2017
Sciences Analytiques
En gros on prend les valeurs de X, on applique à chaque valeur son logarithme. Après calcul on se
retrouve avec une courbe qui s'apparente à celle de Gauss.
Exemple : Dans la plupart des dosages biologiques quand celui-ci ne suit pas la Loi Normale, le
Log permet de corriger l'écart entre la normalité.
Avec l'histogramme ci-contre, nous avons pris le Log de chaque valeur, et nous obtenons un deuxième
graphique qui se rapproche plus de la Loi Normale.
Il est nécessaire que l'histogramme soit uni-modal à l'origine.
IV)
ECHANTILLONAGE
Cas général (non analytique) :
Un échantillon est une partie de la population.
Dans le contexte analytique:
L'échantillon est un prélèvement. Ici la population est continue.
Par exemple, si on cherche à analyser de l'eau, la population c'est toute l'eau.
Si on prélève quelque chose : on n'appelle pas ça un échantillon mais un spécimen dans le contexte
analytique.
L'échantillon c'est un ensemble de spécimen. (Par exemple, un ensemble de solution test)
1)
Échantillonnage en moyenne :
A partir de prélèvements, nous obtenons des valeurs. On a donc une certaine variable X,
(Pour un dosage se sera son pH par exemple), observée « n » fois (X1, X2, X3...Xn).
En donnée analytique on a toujours des erreurs : biais (systématique), de précision (aléatoire).
On laissera ici de coté les biais, et on prend ne en compte que les erreurs aléatoires qui renvoient à la
précision.
9/11
2016-2017
Sciences Analytiques
Chaque Xi a pour moyenne μ, (correspondant à la vraie valeurs) et un écart-type σ ( correspondant à la
précision de la méthode).
Les réplicats :
Lorsque l'on réalise des réplicats, la moyenne est plus précise.
Exemple :
Si on réalise une expérience en travaux pratique, on prend 10 élèves qui ont calculé une moyenne
X(barre). X est aléatoire, si on fait 10 élèves, on aura des résultats différents.
La moyenne X (barre), est donc une variable aléatoire.
La moyenne X(barre) a pour moyenne de référence (au sens de la probabilité) « μ ».
2)
Écart-type de la moyenne
Calcul de l'Écart-type de la moyenne :
Avec S l'écart-type individuel
Exemple :
10/11
2016-2017
Sciences Analytiques
Avec des différences de résultats entre chaque élèves, l'écart-type de la moyenne décrit des résultats plus
proches que les observations individuelles.
11/11