DONNEES CENTREES ET NORMALITE UE 45.2 CHIII Pierre MORETTO, Université Paul Sabatier, Toulouse III. Données centrées et normalité Indices centraux Dispersion Loi Normale (Equiprobabilité) Variables centrées réduites Normalité d’une distribution Détermination graphique Détermination / indices Test du ² Indices centraux et de dispersion Mode, Médiane, Moyenne Quartile, variance et écart-type Indices centraux et de dispersion Centraux Mode: valeur la plus représentée Médiane : valeur correspondant à un effectif cumulé de 50% Moyenne: 1 m (n x ) N 1 i i Effectif (« verre plein ») Centre de classe (« Position du verre sur le plateau ») Indices centraux et de dispersion Equilibre du plateau Mode Médiane Moyenne Indices centraux et de dispersion Mode Médiane Moyenne Indices centraux et de dispersion Dispersion Intervalle interquartile Ecart-type 1 2 2 ( n x ) m i i N 1 Indices centraux et de dispersion IQ IQ 50% de la population sur IQ 68.25% de la population sur 1 Loi Normale Equiprobabilité Equiprobabilité Modèle mathématique Equiprobabilité : Pr(A)=Pr(B) Un exemple : Somme sur jets de 2 dés Considérer la probabilité que la somme des 2 dés fasse : 0, 1, 2, … jusqu’à 14 Cad un % de chance .. Une fréquence probable Tracer le diagramme en fréquence de ces lancers de dés. Rappel: Pr(A et B) = Pr(A) x Pr(A/B) Equiprobabilité Sur somme de 2 dés: Pr(A et B) = Pr(A) x Pr(A/B) Pr(0)=0 Pr(1)=0 Pr(2)=Pr(1et1)=Pr(1) x Pr(1/1)=2/6 x 1/6=2/36 Pr(3)=Pr(1et2)=2/36 Pr(4)=Pr(1et3)+Pr(2et2)=2/36+2/36=4/36 Pr(5)=Pr(1et4)+Pr(2et3)= 2/36+2/36=4/36 Pr(6)=Pr(1et5)+Pr(2et4)+Pr(3et3)=1/6 Pr(7)=Pr(1et6)+Pr(2et5)+Pr(3et4)=1/6 Equiprobabilité Sur somme de 2 dés: Pr(A et B) = Pr(A) x Pr(A/B) Pr(8)= Pr(2et6)+Pr(3et5)+Pr(4et4)=1/6 Pr(9)= Pr(3et6)+Pr(4et5)=4/36 Pr(10)=Pr(4et6 )+Pr(5et5)=4/36 Pr(11)=Pr(5et6)=2/36 Pr(12)=Pr(6et6)=2/36 Pr(13)=0 Pr(14)=0 Probabilités Graphiquement Sommes possibles « Courbe en cloche » …… Loi de Gauss Loi Normale (Laplace-Gauss) - Mode, Médiane et Moyenne sont confondus - Symétrie / indices centraux 1 ; 68.25% de la population 2 ; 95.50% de la population Loi de Gauss Cette courbe en cloche illustre très fréquemment les comportements humains (neurosciences, physiologie, biomécanique, sociologie etc.) Parlebas & Cyffers, (1992) Variables centrées réduites Variables Centrées Réduites VCR L’écart centré réduit est défini pour pouvoir utiliser la Loi Normale ( x) Intérêts ( xi mx ) x Situer un individu / groupe et selon différentes variables Pouvoir donner le nombre d’individus dans un intervalle de performance Table de la loi normale Loi Normale -2 VCR -1 ( x) +1 ( xi mx ) x +2 Table de la loi normale Variables normales centrées réduites -2 -1 0 +1 +2 Table de la Loi normale centrée réduite Lecture: Valeur d’ en additionnant colonne de gauche (dixième) et ligne du haut (centième) Ex: Soit z =0.5 une valeur de A l’intersection de 0.5 (première colonne) et 0 (1ère ligne) : La valeur est 0.1915 …. Soit 19.15% de la population entre 0 et z. Utilisation de l’écart centré réduit Situation d’un sujet / groupe selon différentes variables Dénombrement dans un intervalle donné Situation d’un sujet / groupe selon différentes variables -2 -1 0 +1 +2 Performance centrée réduites du sujet S1 Détente verticale Squat Saut en longueur Profile des performances de l’athlète Dénombrement dans un intervalle donné La taille d’un groupe d’enfants suit une distribution normale. m 1.20m 0.06m Indiquez la probabilité pour que : 1.14 Taille 1.29m Table des valeurs normales centrées réduites ( x) Correction ( xi mx ) x 1.14 m 1.29m 1.20 0.06 m 1.20 0.09 m 1 m m 1.5 Condition _ A m 1 Taille 1 Pr obabilité _ associée _ Pr( 1) Si _ 1 _ alors _ Pr( 1) 0.3413 Condition _ B Taille m 1.5 1.5 Pr obabilité _ associée _ Pr(1.5) Si _ 1.5 _ alors _ Pr(1.5) 0.4332 Pr( AetB) Pr( A) Pr( B ) _______ 0.3413 0.4332 _______ 77.45% Dénombrement dans un intervalle donné La taille d’un groupe d’enfants suit une distribution normale. m 1.20m 0.06m Indiquez la probabilité pour que : Taille 1.11m Table des valeurs normales centrées réduites ( x) Correction ( xi mx ) x Taille 1.11m 1.20 0.09 Taille m 1.5 Taille m 1.5 Taille 1.5 Pr obabilité _ associée _ Pr(1.5) Si _ 1.5 _ alors _ Pr(1.5) 0.4332 Pr(Taille 1.11) 50% Pr( 1.5) _______ 0.5 0.4332 _______ 6.68% Normalité d’une distribution Normalité d’une distribution Il s’agit de comparer la distribution expérimentale à la loi normale. Si la distribution expérimentale est normale, les tests statistiques dits paramétriques peuvent être appliqués … sinon transformation des données (log, racine etc) Sinon tests non paramétriques. Normalité d’une distribution Histogramme 35 33 31 30 28 25 Effectifs 20 17 17 18 14 15 10 11 10 10 6 5 5 3 2 0 33.5 37.5 41.5 45.5 49.5 53.5 57.5 61.5 65.5 69.5 73.5 77.5 81.5 85.5 Performances Cette distribution peut-elle être assimilée à celle de Gauss ? Normalité d’une distribution Normalité d’une distribution Détermination graphique Détermination / indices Test du ² Normalité de la distribution Détermination graphique Test de la droite de Henry Principe: Vérifier que le graphique des fréquences cumulées est linéaire après changement d’échelle. La transformation est appelée « Anamorphose » Détermination graphique Diagramme fréquences cumulées Anamorphose Droite de Henry Fréquences cumulées Fréquences cumulées 1.20 1.00 0.80 0.60 0.40 0.20 0.00 33.537.541.545.549.553.557.561.565.569.573.577.581.585.5 33.537.541.545.549.553.557.561.565.569.573.577.581.585.5 Performances Performances Echelle d’anamorphose Détermination graphique Droite de Henry Calcul de la pente Fréquences cumulées 33.537.541.545.549.553.557.561.565.569.573.577.581.585.5 Performances Anamorphose Si la distribution est normale à ±2 correspond 95.5% de la population. Intervalle entre 2.28% et 95.5% correspond à 4. Pente=(Q95-Q2.28)/ 4 PThéo=(95.5-2.28)%/4=0.23 Normalité d’une distribution Normalité d’une distribution Détermination graphique Détermination / indices Test du ² Normalité d’une distribution /Indices Une distribution est normale si: Les indices centraux sont confondus Mode=Médiane=Moyenne de la population à ± 1 95.5% de la population à ± 2 68.25% Si ces faits sont retrouvés à partir des données expérimentales alors, la distribution peut être considérée comme « Normale » Normalité d’une distribution Normalité d’une distribution Détermination graphique Détermination / indices Test du ² Test du ² Le test du ² permet de comparer 2 distributions. Si il est appliqué à la comparaison de la distribution de la donnée expérimentale et d’une distribution normale (au sens Gaussien), il permet de vérifier très précisément la normalité de la distribution expérimentale. Test du ² Principe Comparer 2 fréquences Expérimentale Normale (rouge) (Bleu) Quantifier la somme des différences/classes Règle de décision / valeur théorique 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Test du ² Quantifier la différence Calculer l’écart centré réduit pour x1 mx ( x1 ) Pr( ( x1 )) fTh1 chaque centre de x classe Xi ..... Trouver la x14 mx probabilité associée ( x14 ) Pr( ( x14 )) fTh14 x dans la table de la Loi Normale Centrée Réduite Test du ² Quantifier la différence Calculer l’écart centré réduit pour x1 mx ( x1 ) Pr( ( x1 )) fTh1 chaque centre de x classe Xi ..... Trouver la x14 mx probabilité associée ( x14 ) Pr( ( x14 )) fTh14 x dans la table de la Loi Normale Centrée Réduite Test du ² Quantifier la différence Pour chaque classe, une fth et une fobs(ni/N) Calculer la différence de ces fréquences pour chaque classe f obs1 f th1 ..... f obs14 f th14 Test du ² Calcul de l’indice Carré des différences Rapportée à Fth Somme « Surface entre les 2 courbes » ( f obs f th ) 2 ² f th Test du ² Règle de décision ( f obs f th ) 2 ² f th Une table des valeurs de ² La valeur est lue pour un Degrès De Liberté (ddl=N-1) A un risque choisi (10%, 5%, 1%) Test du ² Règle de décision ( f obs f th ) 2 ² f th Si ²Calculé> ²Théorique au risque choisi les distributions diffèrent significativement. Sinon elles sont statistiquement semblables. Test du ² Exemple Le ² calculé sur un échantillon de 19 sujets est de 32.5. La distribution est-elle normale au risque 5% ? La distribution est-elle normale au risque 1% ? Table du ² Test du ² Correction Table du ² Le ²théorique à P=0.05 pour un ddl=18 est de 28.87 32.5 > 28.87 donc ²calculé >²théorique Les distributions observée (expérimentale) et théorique (Loi Normale) sont semblables à P<0.05 La distribution est normale au risque P<5% Test du ² Correction Table du ² Le ²théorique à P=0.01 pour un ddl=18 est de 34.80 32.5 < 34.8 donc ²calculé <²théorique Les distributions observée (expérimentale) et théorique (Loi Normale) sont différentes à P<0.01 La distribution n’est pas normale au risque P<1% Risque inférieur entraîne une décision plus sévère COMPARAISON D’ÉCHANTILLONS PARAMÉTRIQUES UE 45.2 CHIV Pierre MORETTO, Université Paul Sabatier, Toulouse III. Comparaison d’échantillons Règles de décisions et orientations Les distributions des échantillons A et B sont-elles normales (Gaussiennes) ? Si OUI, tests paramétriques Si NON, Transformation (racine, log ..) et retour à Tests Non paramétriques (Ch V) Comparaison d’échantillons paramétriques Méthodologie générale: Distributions normales Comparaison d’échantillons paramétriques Comparaison des variances des échantillons de distributions normales A (²A) et B (²B) Comparaison des variances Echantillon A mA , ² A , nA Echantillon B mB , ² B , nB Comparaison des variances Le test est appelé « Test F de Fisher-Snedecor » Il est basé sur le rapport (F) des variances des échantillons A et B Donc si les variances sont semblables le rapport F est proche de 1 si les variances diffèrent le rapport F s’éloigne de 1 Dans les 2 cas … l’objectivité impose de savoir de combien et à quel risque ? Histogramme Histogramme 35 33 31 30 28 25 Effectifs 20 17 18 17 14 15 10 11 10 10 6 5 5 3 2 0 33.5 37.5 41.5 45.5 49.5 53.5 57.5 61.5 Performances 65.5 69.5 73.5 77.5 81.5 85.5 Le diagramme cumulatif Fréquences cumulées % 1.20 1.00 Fréquences cumulées 0.80 0.60 0.40 0.20 0.00 33.5 37.5 41.5 45.5 49.5 53.5 57.5 61.5 Performances 65.5 69.5 73.5 77.5 81.5 85.5 Détermination Graphiques Ces graphiques permettent de déterminer Des indices centraux Mode Des et médiane indices de dispersion Quartiles Intervalle interquartile Détermination du mode Histogramme - Repérer le plus grand effectif - Le mode est la performance (61.5 cm) la plus représentée (33%) - (cad pour laquelle la fréquence est la plus importante) 50% Détermination de la médiane Fréq cumulées - Repérer 50% sur l’effectif cumulé (ordonnées) - Projeter sur l’axe des performances - La médiane est la performance (57.5 cm) qui coupe l’effectif en deux parties égales (cad 50% font plus mais 50% font moins de 57.5 cm de détente verticale) L’intervalle et l’hétérogénéité Dans les 2 cas 50% de la population sont distribués sur IQ IQ1 IQ2 Les indices de dispersion L’écart-type : À partir de l’ensemble des valeurs (N<30) 1 1 ² ( xi m )² ( xi ²) m ² N N 1 1 ( xdonnées ² (N>30) ( xi ²) m ² i m )² A ²partir de regroupées N N 1 1 ni ( xi m )² 1 (ni xi ²) m ² 1 ² N 1 ni ( xi m )² ² N 1 (ni xi ²) m ² N 1 N 1 A certaines conditions (de normalité), 68.5% de la population sont distribués sur une étendue de 1 Distribution et hétérogénéité 68.5% de la population distribués sur 1 l’écart-type autour de la moyenne 1 ² N 1 ( xi m )² ² N ( x ²) m ² i 1 1 ² ni ( xi m )² ² (ni xi ²) m ² N 1 N 1 -1 1