Statistiques en L1 Sociologie et Psychologie : quelques notes en vrac. Hervé Le Ferrand, Université de Bourgogne 7 avril 2011 Table des matières 1 Lettres grecques 2 2 Plan du général du cours 2 3 Introduction 2 4 Un peu de vocabulaire 2 5 Représentation des variables statistiques 2 6 7 Caractéristiques d'une distribution 2 6.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 6.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 6.3 A savoir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Tirages 3 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7.2 Loi binomiale. Loi hypergéométrique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7.3 7.2.1 Le cadre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7.2.2 Tirage avec remise : loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 7.2.3 Tirage sans remise : loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Approximations de ces deux lois 8 Estimation 5 9 Bibliographie 5 1 1 Lettres grecques alpha bêta gamma delta epsilon zêta thêta lambda mu xi rhô sigma phi psi oméga α β γ δ ζ θ λ µ ξ ρ σ φ ψ ω Table 1 lettres minuscules gamma delta lambda xi sigma phi psi oméga khi Γ ∆ Λ Ξ Σ Φ Ψ Ω χ Table 2 lettres majuscules 2 Plan du général du cours Le plan du cours peut être vu de la façon suivante : Statistiques descriptives ( nous permettent de calculer des paramètres expérimentaux) Lois normales (ces lois interviennent souvent) Combinatoire (notions d'arrangement et de combinaison) : Lois normales et Combinatoire nous permettent de construire et utiliser de manière pratique : Modèles de tirages (loi binomiale, loi hypergéométrique) Les trois items précédents nous conduisent à la problématique de l'échantillonnage et à celle de l'estimation. Sur une population x P, on s'intéresse à un caractère et que l'on ait construit un échantillon de P x. Supposons que l'on connaisse des paramètres liés à Modèles de tirages). ( Que peut-on dire des paramètres de x restreint à l'échantillon ? Inversement, si l'on a un échantillon d'une population et si l'on a calculé des valeurs expérimentales d'un certain caractère, peut-on en tirer des informations pour la population entière ? Il s'agit alors d'estimation. 3 Introduction La Statistique est la science qui s'occupe de traiter et analyser des données. Des statistiques sont un ensemble de données issues d'études sur une population. 4 Un peu de vocabulaire 5 Représentation des variables statistiques 6 Caractéristiques d'une distribution 6.1 Paramètres de position 6.2 Paramètres de dispersion . 2 6.3 A savoir 1. Changement de variables (x, y des variables statistiques sur une même population, a 6= 0, b, c 6= 0, d des réels xés), on a : (a) (b) (c) (d) Soit m(ax + b) = am(x) + b. σ(ax + b) = aσ(x). cov(ax + b, cy + d) = ac · cov(x, y). r(ax + b, cy + d) = r(x, y). la série statistique 95, 97, 100, 103, 105 la variance est fondée sur les mesures des changement de variable l'écart type de Z = dont la moyenne est 100. On se souvient que le principe de écarts à la moyenne. Ici le plus grand écart est 5. Faisons le x−100 . Quels sont la moyenne et l'écart type de 5 Z? Comment en déduire x? x est une variable de moyenne µx 0) et réduite (l'écart type vaut 1). Plus généralement ; si (moyenne valant et décart type σx , la variable z = x−µx σx est centrée 2. Dans le cas d'un tableau croisé, i.e. d'un tableau de contingence pour un couple de variables statistiques, on fera attention au calcul de la covariance. On a besoin, X 1X yj nij xi n j i 7 moyenne des produits, de : ! (pour vérication, égale à 1 X X xi nij yj ). n i j Tirages 7.1 Introduction Expliquer les notions de permutation, d'arrangement et de combinaison. Donner des exemples. On a 5 boules, deux blanches et trois noires. Combien de façons a-t-on de les ranger ? Ω est l'ensemble des couples (i, j) avec i et j 6. Un événement est une partie de Ω. On suppose que l'on est dans un cas de probabilité uniforme, c'est à dire que la probabilité que l'événement ω se réalise, P ({ω}), ne dépend pas de ω . Sur notre exemple : Soit Ω un espace des états : par exemple si on lance deux dés, nombres entiers compris entre 1 et P ({ω}) = 1 . 36 (1) Plus généralement, on a alors : P (A) = On va être amenés à considérer des cardinal de cardinal de A . Ω (2) variables aléatoires. Toujours sur notre exemple, on peut considérer la somme des faces des deux dés obtenues : X(i, j) = i + j. Que valent P (X = 2), P (X = 12) et P (X = 3) ? P (X = 3) = 7.2 7.2.1 (3) On a : nombre de couples (i, j) 36 tels que i+j =3 . (4) Loi binomiale. Loi hypergéométrique. Le cadre Une urne contient N boules, nombre de boules blanches X 1. avec remise, dans ce cas N1 boules blanches et N2 boules noires. On tire n boules et on regarde le dans cet échantillon. On considère deux types de tirages : n est aussi grand que l'on veut. 2. sans remise, alors nécessairement n≤N (on peut supposer que l'on tire simultanément les 3 n boules). 7.2.2 Tirage avec remise : loi binomiale On montre ( !) que : P (x = k) = n k N1 N k N − N1 N En considérant la proportion de boules blanches dans l'urne, i.e. P (x = k) = On utilisera la notation : la variable aléatoire X = B(n; p). n k n−k . (5) N1 N , on a : p= pk (1 − p)n−k . (6) Dans la pratique, lorsque les éventualités se réduisent à une alternative, nombre de succès suit une loi binomiale lorsque : 1. on a deux éventualités exclusives de probabilité constante p (succès) et q =1−p (échec). 2. les épreuves répétées sont indépendantes. Dans le cas de l' P (X = 1) = p. urne de Bernoulli, c'est à dire dans le cas d'un seul tirage on a : La moyenne de X P (X = 0) = 1 − p et vaut donc : (1 − p) × 0 + p × 1 = p. La variance vaut p − p2 = pq . Peut-on généraliser ? Exemple 7.1 On étudie le nombre La moyenne de X X de garçons dans une famille de 4 enfants. Quel loi suit X ? vaut : 1 4 6 4 1 1 ×0+ ×1+ ×2+ ×3+ ×4=2=4× . 16 16 16 16 16 2 Quant à la variance, elle se calcule de la façon suivante : 4 6 4 1 1 × (0 − 2)2 + × (1 − 2)2 + × (2 − 2)2 + × (3 − 2)2 + × (4 − 2)2 = 1. 16 16 16 16 16 On remarque sur l'exemple précédent que la moyenne vaut si 7.2.3 np et la variance npq . On retiendra : X = B(n; p) µ = np, V = npq. Tirage sans remise : loi hypergéométrique On montre ( !) que : N1 N − N1 k n−k N P (X = k) = n 0 On utilise la notation : X = H(N ; N1 ; n). si 0 ≤ k ≤ N1 , 0 ≤ n − k ≤ N − N1 sinon. On admettra que (p µ = np, V = np(1 − p) 7.3 Si npq N1 N ) : N −n . N −1 Approximations de ces deux lois n ≥ 30, np > 5 et q remplacera X = B(n; p) par la loi normale de paramètres np et √npq. remplacera la loi X = H(N ; N1 ; n) par la loi normale de paramètres np et nq > 5, Avec les mêmes hypothèses, on √ = on N −n N −1 . 4 8 Estimation On a utilisé la loi de Student. Qui se cache sous le nom de Student ? C'est William Gosset, brasseur et mathématicien anglais, 1876-1937, qui publia des recherches en Statistique sous le pseudonyme de Student. Exemple 8.1 On a eectué moyenne empirique de 4.38 90 mesures de concentration d'une solution de uoresceine. On a observé une mg/l et un écart-type empirique de 0.08 pour la concentration réelle de la solution, aux niveaux de conance mg/l. Donner un intervalle de conance 0.95 et 0.99. (réponse : [4.363; 4.397] et [4.358; 4.402]) 9 Bibliographie recherche sur http ://scd.u-bourgogne.fr/ : mots clés ; statistiques sciences humaines Références [1] Howell, David C. Auteur Méthodes statistiques en sciences humaines [Texte imprimé] / David C. Howell ; traduction de Marylène Rogier, Vincent Yzerbyt et Yves Bestgen ; révision scientique de Vincent Yzerbyt et Yves Bestgen (2008) [2] Chanquoy, Lucile. Auteur Statistiques appliquées à la psychologie, et aux sciences humaines et sociales [Texte imprimé] / Lucile Chanquoy,... ; Pierre Benedetto, conseiller éditorial (2005) [3] Rateau, Patrick. Auteur Méthode et statistique expérimentales en sciences humaines / Patrick Rateau,... (2001) [4] Howell, David C. Auteur Méthodes statistiques en sciences humaines / David C. Howell ; trad. de l'anglais par Marylène Rogier, révision scientique par Vincent Yzerbyt et Yves Bestgen (1999) [5] Mengal, Paul Statistique appliquée aux sciences humaines / Paul Mengal (1999) [6] Dubus, Alain Méthodes et pratiques du traitement statistique en sciences humaines : étude de cas avec le logiciel ADSO 3 / Alain Dubus (1998) [7] Dubus, Alain. Auteur Méthodes et pratiques du traitement statistique en sciences humaines : étude de cas avec ADSO 3 / Dubus, Alain [8] Chauvat, Gérard Statistiques descriptives : DEUG sciences économiques, AES 1re année , droit et sciences humaines / Gérard Chauvat,... Jean-Philippe Reau,... ; coordination, Daniel Fredon (1994) [9] Vu, Tu Lap Atlas du Viêt-nam = Atlat Viêt Nam = An atlas of Vietnam / Vu Tu Lap, Christian Taillard ; [publ. par le] Centre national des sciences sociales et humaines du Viêt-nam , [le] Département général de la statistique du Viêt-nam [et le] Groupement d'intérêt public RECLUS vie eng (1994) [10] Rouanet, Henry Analyse des données multidimensionnelles : statistique en science humaines / Henry Rouanet, Brigitte Le Roux (1993) [11] Reau, Jean-Philippe Probabilités et statistiques : DEUG sciences économiques et AES, sciences humaines... : résumés de cours, exercices et problèmes corrigés / Jean-Philippe Réau, Gérard Chauvat (1992) [12] Chauvat, Gérard Statistiques descriptives : DEUG sciences éco et AES 1re année : droit et sciences humaines... / Gérard Chauvat,... Jean-Philippe Reau,... (1992) [13] Mialaret, Gaston Statistiques appliquées aux sciences humaines / Gaston Mialaret [14] Rouanet, Henry Statistique en sciences humaines : analyse inductive des données / Henry Rouanet, JeanMarc Bernard, Brigitte Le Roux (1990) [15] Langouët, Gabriel Pratiques statistiques en sciences humaines et sociales / Gabriel Langouet, Jean-Claude Porlier (1989) [16] Rouanet, Henry Statistique en sciences humaines : procédures naturelles / Henry Rouanet, Brigitte Le Roux, Marie-Claude Bert (1987) 5 [17] Vogt, Aimé Analyse économique. Méthodes statistiques. I, Résumé de cours. Exercices corrigés Biologie. Economie. Mathématiques. Médecine. Pharmacie. Sciences humaines / Aimé Vogt... (1977) [18] Centre d'étude du vocabulaire français. Besançon G. Apollinaire. Calligrammes : Concordances, index et relevés statistiques établis d'après l'éd. Adéma-Décaudin par le Centre d'Etude du Vocabulaire FrançaisFaculté des Lettres et Sciences Humaines de Besançon (1967) [19] Centre d'étude du vocabulaire français. Besançon J. Racine : Phèdre : concordances, index et relevés statistiques / établis d'après l'éd. P. Mesnard par le Centre d'Etude du Vocabulaire Français-Faculté des lettres et Sciences Humaines de Besançon (1966) [20] Tisserand-Perrier, Marie. Dr P. Pèpe,... M. Tisserand-Perrier,... Méthodes statistiques dans les sciences humaines... (1962) recherche sur http ://scd.u-bourgogne.fr/ : mots clés ; statistiques licence Références [1] Lindenberg, Andreas. Auteur Les stats en bulles : statistiques : pour lycéens et étudiants, terminales, licence 1re année / Andreas Lindenberg, Irmgard Wagner ; illustrations de Peter Fejes ; traduit de l'allemand par Marc Aubry ; avec la collaboration de Jean-Côme Charpentier (2009) [2] Lancry, Pierre-Jean Statistique : sciences politiques, 1er cycle de sciences économiques et licence A.E.S. : études de cas / Pierre-Jean Lancry (1983) [3] Batola, Luciole Statistique et économétrie : cours-exemples, traités-exercices, licence et maîtrise ès sciences économiques / Luciole Batola (1983) [4] Louquet, P. Les Mathématiques en Sciences Economiques : licence, 1ère année et IUT. Fascicule 2, Statistiques, essentiel du cours de mathématiques et exercices et problèmes résolus et classés / par... P. Louquet... J. Tribouley... A. Vogt (1972) [5] Piganiol, Bernard Statistique : , [licence en droit] 3e année, corrélation et régression, économétrie, théorie des tests et séries temporelles, par B. Piganiol,.. (1971) [6] Fourgeaud, Claude (....-1990) Statistique : licence ès Sciences Economiques 2ème année / Claude Fourgeaud ; cours rédigé par G. Hansel,. (1965) recherche sur http ://scd.u-bourgogne.fr/ : mots clés ; statistiques sans mathématiques Références [1] Py, Bernard (1947-). Auteur La statistique sans formule mathématique [Texte imprimé] / Bernard Py (2007) [2] Badia, Jacques. Auteur Statistique sans mathématique [Texte imprimé] / Jacques Badia,... René Bastida,... Jean-Robert Haït,... (1997) 6