2016-2017 Sciences Analytiques STATISTIQUE DESCRIPTIVE – UE :8 Semaine : n°1 (du 05/09/2016 au 09/09/2016) Date : 09/09/2016 Heure : de 8h30 à 10h30 Binôme : n°19 Professeur : Pr. M. Lemdani Correcteur : Suite et fin du cours du 08/09/2016 I) MOYENNE ET VARIANCE VOIR COURS DU 08/09/2016 II) MEDIANE ET QUARTILES A) La médiane B) Les Quartiles III) NOTION DE DISTRIBUTION D'UNE VARIABLE A) Dispersion et densité de probabilité B) Détermination de la forme de la distribution C) Rappel sur l'estimation D) Rappel sur les décimales E) La Normalité 1) TABLE de la loi normale 2) Valeurs importantes 3) Log-normalité IV) ECHANTILLONAGE A) Échantillonnage en moyenne B) Ecart-type de la moyenne 1/11 2016-2017 II) Sciences Analytiques MEDIANE ET QUARTILES Il s'agit d'un alternatif à l'utilisation de l'écart type et de la moyenne. Toutefois l'utilisation de ces deux dernières est privilégiées, il existe cependant des situations où l'utilisation de la moyenne et de l'écarttype n'est pas adaptées. La moyenne permettant de mesurer la tendance centrale L'écart-type permettant de mesurer la dispersion A) La médiane La médiane : est l'observation centrale. C'est la valeur telle que l'on a 50% des observations Avant ET Après. Pour la trouver il suffit de ranger les valeurs par ordre croissant. Exemple : X1 la plus petite observation (et non la première mesuré dans le temps!), X2 la deuxième plus grande, etc... Calcul la médiane : en fonction d'un nombre d'observation pair ou impair ? Exemple : Si on a 5 observations, la 3ème est la médiane (on en a 2 avant et 2 après) Si on a 4 observations, c'est la moyenne de la 2ème et de la 3ème valeurs Pour les fans de formules : Me = (n+1) / 2 Sachant que n est le nombre d'observation 2/11 2016-2017 Sciences Analytiques La médiane est donc une mesure alternative à la moyenne de tendance centrale. Toutefois, la médiane et la moyenne peuvent se confondre : si les observations sont bien symétriques la valeur centrale est à la fois la médiane et la moyenne. Mais si la dispersion est asymétrique, la moyenne et la médiane s'éloigneront. B) Les Quartiles Même principe, on a la valeur minimale et la valeur max , et la valeur médiane. Nous nous intéressons ici à une mesure de la dispersion. L'écart type décrivant la dispersion autour de la moyenne, ici le quartile illustre la dispersion autour de la médiane. L'idée est de rester sur ce principe de partage de l'échantillon. Avec la médiane on a coupé l'échantillon en 2. Pour le quartile nous le coupons donc en 4. Les Quartiles : les valeur a partir de laquelle on a -le quart d'observation le plus faible : Q1, le premier quartile -le quart d'observation le plus fort : Q3, le troisième quartile Si nous nous situons entre Q1 et Q3, nous avons la moitié des observations qui sont ni trop petites ni trop grande. Cet espace est appelé l'intervalle inter-quartile. Calcul des Quartiles : On peut très bien le faire « à la main », ranger les observations et se placer au quart. Ou sinon utiliser la formule. Formules : Q1 = (n+1) / 4 Q3 = ¾ (n+1) Avec n le nombre d'observation Ces paramètres sont intéressants à calculer mais nous utiliserons le plus souvent la moyenne et l'écarttype, sauf si ces deux paramètres ne sont pas pertinent. 3/11 2016-2017 III) Sciences Analytiques NOTION DE DISTRIBUTION D'UNE VARIABLE La distribution de la variable est une notion qui va être exhaustive en terme de caractérisation de la variable. Si on reprend l'exemple du titrage, et que l'on trouve une moyenne des variables observées de 8 mL, on ne sait pas si nos valeurs sont systématiquement entre 7,95 et 8,05 ou entre 7 et 9. La moyenne et l'écart-type ne suffisent pas à décrire l'ensemble des données. Nous avons besoin de décrire la distribution pour être complet. A) Dispersion et densité de probabilité Avec ces 2 séries d'observations : À travers ce dessin est-ce que le fait de donner la moyenne, l'écart-type suffit à avoir une vue d'ensemble des observations ? Echantillon 1 : la moyenne et le point d équilibre c'est x1. Echantillon 2 : si on regarde les 5 observation, dans les 3, il y en a 2 qui sont très grandes. La moyenne peut être placé au même endroit. -Dans les 2 séries on a la même moyenne. Mais une moyenne identique ne signifie pas pour que l'on ait le même genre de valeurs. Dans le premier échantillon nos valeurs sont uniformes, alors que dans le deuxième échantillon, on voit que beaucoup d'observations sont très éloignées. -De même au niveau de l'écart-type. Si on calcul l'écart type on aurait a peu près la même valeur dans les deux échantillons. Ce qui montre bien que la moyenne et de l'écart-type ne nous donne pas une connaissance complète des observations. Rappel : la moyenne donne la tendance centrale (au niveau de quelle valeur je me trouve) : l'écart-type donne la dispersion (de combien je me dispersion, mais on ne sait pas de comment je me disperse, c'est à dire plus/moins à gauche ou à droite). B) Détermination de la forme de la distribution Pour être complet en terme d'informations de l'échantillon, il faut prendre l'ensemble des données et utiliser une représentation graphique qui rend compte de la répartition et distribution des données. On utilisera un histogramme. L'histogramme décrit parfaitement la densité au niveau de l'échantillon. Exemple : 50 déterminations à deux décimales près du pH d'une solution tampon ont fourni les résultats suivants 4/11 2016-2017 Sciences Analytiques Valeurs 5,12 5,13 5,14 5,15 5,16 5,17 5,18 Fréquence 3 5 9 13 11 7 2 Nous notons une forme d'erreur aléatoire au niveau de l'imprécision. Cette imprécision est telle plus à droite ou à gauche ? Quelle est la forme de répartition qui permet de penser la former de l'erreur ? Nous pouvons y répondre en dessinant l'histogramme de ce tableau. C) Rappel sur l'estimation (différence entre moyenne de l'échantillon et de la population) Il s'agit ici d'une solution tampon. C'est à dire qu'elle a une valeur bien précise pour son pH. Toutes les valeurs relevées sont en réalité des mesures et non pas le réel pH (théorique). Quand on calcul la moyenne et l'écart-type des 50 valeurs : x(moy) =5,1506 et s(écart-type) =0,015174 Si on refait une deuxième série de 50 observations, la moyenne et l'écart-type ne seront pas égales aux valeurs précédentes. C'est à dire que « x » et « s », sont la moyenne et l'écart-type des 50 observations, c'est à dire de l'échantillon. La vraie valeur du pH , c'est la moyenne de la population « μ » . -Lorsque l'on effectue un dosage on essaie de se rapprocher de la moyenne mais de la VRAIE moyenne c'est à dire de la POPULATION (avec lettre GRECQUES « μ »). – Même chose pour l'écart type en POPULATION «σ » . 5/11 2016-2017 D) Sciences Analytiques Rappel sur les décimales La calculatrice donne : x(moy)=5,1506 Nous ne donnerons jamais toutes les décimales car toutes les valeurs sont approchées, le pH mètre ne donnant que 2 décimales. Cependant, la moyenne étant plus précise que l'ensemble d'observations, nous pouvons nous permettre de la noter avec une décimale de plus. Exemple : Dans notre cas ici nous l'a donnons donc avec trois décimales d'où : « x(moy) » =5,151 σ =0,015 Ce qui nous donne la forme de la densité telle que nous la percevons au niveau de l'échantillon. La distribution est relativement symétrique, elle rappelle la densité de la Loi Normale (courbe de Gauss). E) La Normalité On trouve la Normalité (Courbe de Gauss, courbe en cloche) si l'on obtient cette forme pour la densité. Ce qui veut dire que nos valeurs ont une certaine moyenne. et que cette moyenne et vraiment le centre de symétrie, avec diminution de manière symétrique à droite et à gauche selon une fonction mathématique. Notation : Si la normalité est démontré on note : 6/11 2016-2017 Sciences Analytiques X ~ N( μ ; σ ) X : la variable observée ~ : « suit » N : la loi Normale 1) TABLE de la loi normale (Annexe 1) : Toutes les lois normales se ramènent à la « Loi normale centré réduite ». La moyenne de cette courbe de Gauss est 0. Son écart-type est de 1. Remarque :On a aucune variable biologique qui est centrée réduite car ca voudra dire qu'elle a pour moyenne 0. Or une moyenne biologique est rarement négative. Nous travaillons avec cette Loi avec des variables purement mathématiques et fictives. 2) Valeurs importantes Avec cette courbe, il est important de connaître les valeurs de référence. Rappel : Quand on prend la Loi normale, la surface totale en dessous de la courbe est de 1. Elle correspond à la probabilité d'être entre l'infinie – et + . Étant donné que c'est une Surface finie ( et totale). 7/11 2016-2017 Sciences Analytiques Ce principe là permet de définir des valeurs importantes : Tout ce qui relève de la statistique renvoie à l'aléatoire, on n'est donc jamais certain. De ce fait, on remplace définit la certitude par le niveau de confiance. Dans les valeurs importantes : La zone de confiance à 95% Les valeurs entre lesquelles on peut être confiants à 95% d'avoir mon résultat donc entre -a et +a. A l'extérieur il reste donc 5%. Et donc si l'on prend qu'un seul côté 2,5%S Si on applique la table, la partie hachurée en dehors de « a » correspond à «G( u )». Comme on prend « G(a) » = 2,5% = 0,025 on a alors 1,96. Cela signifie que entre -1,96 ; +1,96 : on a 95% de chance d'avoir raison. Remarque : On arrondie souvent à 2. L'intervalle -3;+3 Nous obtenons avec cette intervalle une zone de confiance de 97%. Pourcentage utile dans les cartes de contrôles. 3) Log-normalité La loi Normale permet de faciliter les calculs. On n'a pas toujours une répartition qui suit cette Normalité. De ce fait la démarche statistique est plus compliquée. Le moyen pour simplifier les choses consiste à appliquer la loi Log-normalité. On dit alors que : » Une variable X suit la loi « Log-normal » si le Logarithme de X suit la loi Normal. » ln(X) ~ N (x ; x) 8/11 2016-2017 Sciences Analytiques En gros on prend les valeurs de X, on applique à chaque valeur son logarithme. Après calcul on se retrouve avec une courbe qui s'apparente à celle de Gauss. Exemple : Dans la plupart des dosages biologiques quand celui-ci ne suit pas la Loi Normale, le Log permet de corriger l'écart entre la normalité. Avec l'histogramme ci-contre, nous avons pris le Log de chaque valeur, et nous obtenons un deuxième graphique qui se rapproche plus de la Loi Normale. Il est nécessaire que l'histogramme soit uni-modal à l'origine. IV) ECHANTILLONAGE Cas général (non analytique) : Un échantillon est une partie de la population. Dans le contexte analytique: L'échantillon est un prélèvement. Ici la population est continue. Par exemple, si on cherche à analyser de l'eau, la population c'est toute l'eau. Si on prélève quelque chose : on n'appelle pas ça un échantillon mais un spécimen dans le contexte analytique. L'échantillon c'est un ensemble de spécimen. (Par exemple, un ensemble de solution test) 1) Échantillonnage en moyenne : A partir de prélèvements, nous obtenons des valeurs. On a donc une certaine variable X, (Pour un dosage se sera son pH par exemple), observée « n » fois (X1, X2, X3...Xn). En donnée analytique on a toujours des erreurs : biais (systématique), de précision (aléatoire). On laissera ici de coté les biais, et on prend ne en compte que les erreurs aléatoires qui renvoient à la précision. 9/11 2016-2017 Sciences Analytiques Chaque Xi a pour moyenne μ, (correspondant à la vraie valeurs) et un écart-type σ ( correspondant à la précision de la méthode). Les réplicats : Lorsque l'on réalise des réplicats, la moyenne est plus précise. Exemple : Si on réalise une expérience en travaux pratique, on prend 10 élèves qui ont calculé une moyenne X(barre). X est aléatoire, si on fait 10 élèves, on aura des résultats différents. La moyenne X (barre), est donc une variable aléatoire. La moyenne X(barre) a pour moyenne de référence (au sens de la probabilité) « μ ». 2) Écart-type de la moyenne Calcul de l'Écart-type de la moyenne : Avec S l'écart-type individuel Exemple : 10/11 2016-2017 Sciences Analytiques Avec des différences de résultats entre chaque élèves, l'écart-type de la moyenne décrit des résultats plus proches que les observations individuelles. 11/11