Analyse des données: Pièces de 1 cent: données des années précédentes 1 Tableau 1 Données brutes - tableau partiel, > 1500 pièces Tableau 1. Étude portant sur les masses de pièces de monnaie canadienne de 1 cent. TP1, module 2 Compteur Code de l'étudiant 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 p0779316 p0779316 p0779316 p0779316 p0779316 p0779316 p0779316 p0779316 p0779316 p0779316 p0820214 p0820214 p0820214 p0820214 p0820214 p0820214 p0820214 p0820214 p0820214 p0820214 Année de État de la diamètre/ épaisseur frappe pièce mm /mm 1976 1979 1981 1994 1997 1999 2001 2004 2005 2006 1976 1978 1983 1986 1989 1999 2001 2003 2005 2006 t.o t.o t.o l.o n o l.o n l.o n o. t.o. t.o. o. t.o. l.o. n. l.o. n. n. 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 19.0 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 masse/g 3.2102 3.2542 2.7052 2.5004 2.2375 2.2366 2.2476 2.2481 2.2207 2.2243 3.3042 3.2810 2.4839 2.4899 2.5128 2.2608 2.2564 2.3817 2.2426 2.2691 2 Analyse des résultats • Trois objectifs: – Établissement du nombre de chiffres significatifs d’une valeur et intervalle de confiance – Comparaison des résultats – Choix du meilleur modèle mathématique pour représenter un ensemble de données expérimentales: moyenne, droite (m et b), autre modèle… 3 Analyse tableau 1: Moyenne • Avec Excel – Utilitaire d’analyse: sous l’onglet «Outils» • Si l’utilitaire n’est pas présent, ouvrir «macros complémentaires» et cocher l’outil « utilitaire d’analyse ». – Choisir «Statistiques descriptives» • Trouver la masse moyenne des valeurs du tableau qui se trouvent dans la colonne G, de G8 à G1528 (1521 valeurs) 4 Résultats pour la masse =s = s2 1.960 0.3646 1521 5 (Nombre de degrés de liberté) (Niveaux de confiance) N.B.: pour le calcul de l’intervalle de confiance, 6 le nombre de degrés de liberté = n - 1 Bonne conclusion ? • Oui ou non? • La moyenne calculée doit bien représenter l’ensemble des données – Qu’est la moyenne mathématique? • Une évaluation de la valeur vraie, µ, de la population des valeurs possibles. Ces valeurs possibles supposent qu’il n’y a qu’une vraie valeur et que les mesures sont distribuées normalement. 7 Tableau 1: Moyenne • Quand peut-on faire une moyenne? • Comment vérifier si une distribution est une distribution normale? – Calcul des probabilités – Comparer la probabilité empirique à la probabilité calculée avec les paramètres de la distribution, moyenne et variance – Droite de Henry La droite de Henry est une méthode graphique pour ajuster une distribution gaussienne à celle d'une série d'observations (d'une variable numérique continue). En cas d'ajustement, elle permet de lire rapidement la moyenne et l'écart type d'une 8 telle distribution. Loi normale • La valeur de ‘y ’ dans cette fonction représente, en principe, le nombre de résultats ayant une valeur ‘x’, divisé par le nombre total de résultats observés. • C'est la probabilité d'obtenir le résultat « x ». • L'équation est valable lorsque le nombre d'observations est très grand, soit n ∞. 9 Loi normale • Si le nombre de résultats possibles est infini, chacun des résultats a une probabilité d'occurrence nulle. • Une courbe continue représente une densité de probabilité plutôt qu'une probabilité. • La probabilité est obtenue en mesurant la surface sous la courbe donnant la densité de probabilité entre deux valeurs ‘a’ et ‘b’ (ex. entre x=-1 et x=-2 sur le graphique à droite). 10 Probabilités empiriques • On peut construire un graphique des probabilités empiriques d’occurrence d’une valeur d’intervalle en fonction de la valeur centrale de l’intervalle (e.g. si la probabilité qu’une valeur soit dans l’intervalle [2,225 à 2,235] est 0,066, la valeur est mise en graphique au point central 2,23g…) 11 Calcul des probabilités empiriques 12 Calcul des probabilités empiriques 13 Calcul des probabilités empiriques 14 Calcul des probabilités empiriques 15 Distribution des probabilités en fonction des masses Valeurs A2005 16 Distribution calculée avec loi normale 1 y e ( x x ) s 2 2 / 2s 2 x 2.5065 g Diapo #5 s = 0.3646 g 17 Conclusions 18 Masses vs. année de frappe 19 Composition – pièce de 1cent Source: Wikipedia Penny (Canadian coin) 20 Masses vs. année de frappe 21 Masses vs. année de frappe: mise en graphique 22 Observations • Les pièces de 2003 semblent différentes des pièces des autres années de 1997 à 2006. Voir la diapo 21. • Comment tester si les masses des pièces de 2003 sont différentes de celles des autres années entre 1997 et 2006? 23 Comparaison des données 24 Statistiquement égaux…. 25 Comparaison de données • L’un ou l’autre des tests « t » suivants permet de comparer deux moyennes: – Le premier suppose que les variances sont statistiquement égales – Le second est utilisé quand les variances ne sont pas statistiquement égales – Donc tester d’abord si s12 = s22 …… tcalculé x1 x2 sgroupé t calculé n1n2 n1 n2 x1 x2 s12 s2 2 n1 n2 26 Comparaison des variances • Utiliser test F • Variance de l’échantillon 2003: 0.00523476 (s12); n1 = 65 • Variance de l’échantillon 1997-2006 sans 2003: 0.00088263 (s22); n2 = 733 • F = s12/s22 (où s1 > s2) • F = 0.00523476/0.00088263 = 5.93 • Fcritique = 1.00 (voir diapo #28) • F > Fcritique donc s12 ≠ s22 27 Tableau des valeurs critiques pour F F = s12/s22 (où s1 > s2) 28 Test « t » t calculé t calculé x1 x2 s12 s2 2 n1 n2 2.35195 2.24881 0.00523476 0.00088263 65 733 t calculé 11.408 29 Test « t » Nombre de degrés de liberté = (s12 / n1 s22 / n2 )2 2 (s12 / n1)2 (s22 / n2 )2 n 1 n 1 2 1 2 0.00523476/ 65 0.00088263/733 2 68 2 66 2 2 0.00523476/ 65 0.00088263/ 733 66 734 30 (Nombre de degrés de liberté) (Niveaux de confiance) N.B.: pour le calcul de l’intervalle de confiance, 31 le nombre de degrés de liberté = n - 1 Test « t » • tcalculé (= 11.408) > tStudent (= 2.000) • CONCLUSION: Les masses des pièces de 2003 sont différentes de celles des autres années entre 1997 et 2006. 32 Comment vérifier si un échantillon de données suit une distribution normale? • Données: 109, 89, 99, 99, 107, 111, 86, 74, 115, 107, 134, 113, 110, 88, 104 (n=15) = 100 x fréq. cumulative/(n+1) 33 Données d’une distribution normale – courbe en forme de « S » Données à la diapo 33 34 Droite de Henry • Faire le graphique des valeurs de % fréquence cumulative en fonction des valeurs xi sur un papier graphique de probabilité (papier gausso-arithmétique). 35 Droite de Henry Données à la diapo 33 36