Inférence statistique Application à la recherche en sciences du sport Stéphane CHAMPELY, Université Lyon 1 (France) 30 août 2010 2 Table des matières 1 Introduction 5 2 Etude descriptive d'une mesure catégorielle (proportions) 2.1 2.2 2.3 2.4 2.5 2.6 2.7 La lecture du jour : Lim et al. [5] . . . . . . . . . . . . . . La situation : des données catégorielles . . . . . . . . . . . La lecture d'un jeu de données avec le logiciel Rcmdr . . . Les types de mesures . . . . . . . . . . . . . . . . . . . . . Les représentations graphiques pour mesures catégorielles Les statistiques pour mesures catégorielles . . . . . . . . . Problèmes classiques concernant les proportions . . . . . . 2.7.1 Les problèmes de sondage . . . . . . . . . . . . . . 2.7.2 Extension à l'étude de plus de deux catégories . . 2.7.3 Les données ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Etude descriptive d'une mesure numérique (moyenne et . . .) 3.1 3.2 3.3 3.4 3.5 3.6 La lecture du jour : Rousseeuw [6] . . . . . . . . . . . La situation : des données numériques . . . . . . . . . Représentations graphiques pour données numériques . 3.3.1 Le graphe indexé . . . . . . . . . . . . . . . . . 3.3.2 Le graphe de dispersion . . . . . . . . . . . . . 3.3.3 L'histogramme . . . . . . . . . . . . . . . . . . 3.3.4 Le graphe quantile-quantile . . . . . . . . . . . Statistiques de centralité . . . . . . . . . . . . . . . . . Statistiques de variabilité . . . . . . . . . . . . . . . . Pour aller plus loin avec les données numériques . . . 3.6.1 La notion de symétrie . . . . . . . . . . . . . . 3.6.2 la multi-modalité . . . . . . . . . . . . . . . . . 3.6.3 Les données extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Comparaison descriptive d'une moyenne à une norme 4.1 4.2 4.3 4.4 La lecture du jour : Kotrlik & Williams [7] . . La situation de comparaison à une norme . . Représentation graphique et comparaison à la La mesure de la taille de l'eet . . . . . . . . 3 . . . . . . . . norme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 8 8 9 9 9 9 9 11 13 13 13 14 14 15 15 15 17 17 19 19 20 20 23 23 23 24 26 4 TABLE DES MATIÈRES 4.5 4.6 Les tailles d'eet pour les proportions . . . . . . . . . . . . . . . La notion de variation d'échantillonnage . . . . . . . . . . . . . . 5 Généraliser les résultats obtenus avec une proportion 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Comment généraliser : l'inférence statistique . . . . . . . . . . . . La situation : L'expérience des smarties . . . . . . . . . . . . . . Notions de probabilités . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Expérience aléatoire et probabilités . . . . . . . . . . . . . 5.3.2 Notion de variable aléatoire (entière) . . . . . . . . . . . . 5.3.3 Représentation graphique d'une variable aléatoire entière 5.3.4 Résumés numériques pour une variable aléatoire entière . Une variable aléatoire entière particulièrement utile : Le modèle probabiliste binomial . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Le modèle probabiliste binomial . . . . . . . . . . . . . . 5.4.2 La loi de probabilités binomiale . . . . . . . . . . . . . . . 5.4.3 Espérance mathématique et variance binomiales . . . . . 5.4.4 Les probabilités cumulés . . . . . . . . . . . . . . . . . . . Modèle probabiliste binomial et distribution d'échantillonnage d'une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalle de conance "d'une proportion" . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Généraliser les résultats obtenus avec une moyenne 6.1 6.2 6.3 6.4 6.5 6.6 La lecture du jour : Greeneld et al. [8] . . . . . . . . . . . . . . La situation : Quelle est la VO2 max des enfants ? . . . . . . . . . Une variable aléatoire réelle particulièrement utile : Le modèle probabiliste normal . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Les intervalles : des événements particuliers . . . . . . . . 6.3.2 Le modèle probabiliste normal "standard" . . . . . . . . . 6.3.3 La loi normale . . . . . . . . . . . . . . . . . . . . . . . . La distribution d'échantillonnage d'une moyenne . . . . . . . . . L'intervalle de conance "d'une moyenne" . . . . . . . . . . . . . 6.5.1 La loi de Student . . . . . . . . . . . . . . . . . . . . . . . Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.1 Quelques problèmes à propos de l'utilisation des intervalles de conance . . . . . . . . . . . . . . . . . . . . . . 6.6.2 Les méta-analyses . . . . . . . . . . . . . . . . . . . . . . 7 Le test d'hypothèses 7.1 7.2 7.3 7.4 La lecture du jour : Bonsangue [9] La situation : une norme à tester . Le modèle et les hypothèses . . . . La puissance d'un test d'hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 28 31 31 32 32 32 33 33 34 35 35 36 36 37 37 40 41 43 43 43 44 44 44 46 47 49 49 51 51 51 53 53 53 53 57 TABLE DES MATIÈRES 5 8 Etude inférentielle de mesures numériques répétées (2 conditions) 59 8.1 8.2 8.3 8.4 8.5 8.6 8.7 La lecture du jour : Cohen [3] . . . . . . . . . . . . . . . . . . . . La situation : des données numériques appariées . . . . . . . . . Compréhension de la diérence entre échantillons appariés (mesures répétées ou blocs) et échantillons indépendants . . . . . . . Graphiques pour échantillons appariés . . . . . . . . . . . . . . . 8.4.1 Le graphe parallèle . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Le graphe des diérences . . . . . . . . . . . . . . . . . . Statistiques et taille d'eet . . . . . . . . . . . . . . . . . . . . . Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . Test d'hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 60 60 60 62 62 64 64 9 Etude inférentielle de comparaison de deux groupes indépendants 67 9.1 9.2 9.3 9.4 9.5 9.6 9.7 La lecture du jour : Diaconis & Efron [11] . . . . . . La situation : deux groupes indépendants de mesures Les graphiques pour deux échantillons indépendants Les tailles d'eet . . . . . . . . . . . . . . . . . . . . Intervalle de conance . . . . . . . . . . . . . . . . . Test d'hypothèses . . . . . . . . . . . . . . . . . . . . Introduction au bootstrap . . . . . . . . . . . . . . . 9.7.1 Un exemple "simple" . . . . . . . . . . . . . . 9.7.2 Un exemple "multivarié" . . . . . . . . . . . 9.7.3 Un exemple avec "strates" . . . . . . . . . . . 10 Etudes inférentielles concernant des proportions 10.1 La lecture du jour : Schechtman [12] . . . . . . . . . 10.2 La situation . . . . . . . . . . . . . . . . . . . . . . . 10.3 Les statistiques et tailles d'eet pour les proportions 10.3.1 Notations et proportions . . . . . . . . . . . . 10.3.2 Tailles d'eet absolues . . . . . . . . . . . . . 10.3.3 Tailles d'eet relatives . . . . . . . . . . . . . 10.4 Intervalles de conance pour des proportions . . . . 10.5 Tests d'hypothèses pour des proportions . . . . . . . 11 Etude inférentielle de corrélation 11.1 11.2 11.3 11.4 11.5 11.6 11.7 . . . . . . . numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La lecture du jour : Anscombe [13] . . . . . . . . . . . . . . . . . La situation : relier deux mesures numériques . . . . . . . . . . . Le nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . Le coecient de corrélation linéaire r . . . . . . . . . . . . . . . Intervalle de conance de r . . . . . . . . . . . . . . . . . . . . . Le test de r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quelques exercices pour saisir la subtilité de la notion de corrélation 67 67 68 68 70 71 72 72 75 76 77 77 77 78 78 78 78 79 80 83 83 83 83 84 86 86 87 6 TABLE DES MATIÈRES A Installation du logiciel R et du package Rcmdr A.1 Installation de R pour Windows . . . . . . . . A.2 Utilisation de R . . . . . . . . . . . . . . . . . A.3 Installation et chargement du package Rcmdr A.3.1 Installation de Rcmdr . . . . . . . . . A.3.2 Utilisation de Rcmdr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 89 89 90 90 90 Chapitre 1 Introduction Ce cours est une introduction à la statistique inférentielle destinée à des chercheurs en sciences du sport. Les chapitres sont organisés autour d'une question précise du type "Comparer des mesures numériques à une norme" et d'un jeu de données issu d'un article scientique. La plupart des disciplines sont couvertes (psychologie, marketing, neurosciences, biomécanique, physiologie...) On cherchera systématiquement à montrer la démarche qui part d'une problématique, de choix eectués pour collecter des données, les analyses statistiques envisageables, et les possibilités et modes de généralisation de ces résultats qui sont possibles. La statistique inférentielle a pour objet de généraliser les résultats observés sur un échantillon. Toutefois, elle demande d'abord une description précise de cet échantillon par des méthodes graphiques ou des résumés statistiques. C'est pourquoi nous présenterons ces méthodes descriptives pour ceux qui n'ont pas suivi préalablement une formation de statistique en L3 et les verrons en situation pour les autres. L'approche inférentielle choisie ici est particulière car classiquement on présente surtout les tests d'hypothèses dans ce type de cours. Cette tradition semble à présent fortement remise en cause. Il nous semble également que ces techniques de tests bien que prééminentes dans la recherche actuelle ne sont pas les meilleures. Aussi le lecteur s'apercevra que nous insistons plus largement sur les méthodes descriptives, les notions de taille d'eet et d'intervalle de conance. Nous présenterons malgré tout les méthodes de test caril est nécessaire de les connaître an de pouvoir comprendre la littérature scientique. Si les formules mathématiques sont présentées et décortiquées, elles ne sont pas indispensables à l'application concrète de ces méthodes car nous emploierons un logiciel appelé R dans sa version interactive Rcmdr. Ce logiciel est libre de distribution. On trouvera en annexe un guide d'installation de ce logiciel. Avant d'entamer chaque chapitre, on proposera de lire un article de nature méthodologique qui décrit un aspect traité dans le cours et permet de le prolonger. 7 8 CHAPITRE 1. INTRODUCTION Chapitre 2 Etude descriptive d'une mesure catégorielle (proportions) 2.1 La lecture du jour : Lim et al. [5] L'article de Lim et al. [5] est bien évidemment un article parodique publié dans une des plus grandes revues médicales. Au delà de son caractère distrayant, on voit pour un problème futile ce qu'est la démarche scientique et commet elle parvient à des réponses précises (quantiées). On peut constater, suite à la dénition de la problématique, le soin et l'astuce apportés à la collecte des données, la réalisation de calculs, certains très complexes et d'autres, c'est le sujet du jour, qui sont de simples pourcentages, la représentation des données par des graphiques, et même l'emploi de tests statistiques , c'est-à-dire de procédures inférentielles, objet de ce cours. Sur la base des résultats présentés, on peut alors habituellement mener une discussion solide, faire des rapprochements avec ce qui est connu par ailleurs, voire élaborer de nouvelles théories1 . . . 2.2 La situation : des données catégorielles La pratique de la course à pieds demande de savoir gérer diérents problèmes physiques, en autres, des tracas digestifs. Riddock et Trinik [15] ont voulu étudier la prévalence de ce type de symptômes. Nous nous focaliserons ici la survenance de diarrhées chez le coureur. Un questionnaire a été distribué au participant d'un marathon demandant s'il leur arrivait de rencontrer ce type de problème. sur Le jeu de données DIARRHF.xls contient les réponses de 38 1 Noter qu'une série de courriers hilarants ont aussi été publié dans le même journal en réponse à ce papier qui prennent eux aussi la forme des réactions scientiques classiques à une publication 9 10CHAPITRE 2. ETUDE DESCRIPTIVE D'UNE MESURE CATÉGORIELLE (PROPORTIONS) femmes marathoniennes à la question : "A l'issue de vos marathons, avez-vous souvent des problèmes digestifs de type diarrhées ?". Le jeu de données "DIARRHF.xls" ne comprend qu'une colonne dont le nom est "PbDigest". Cette colonne contient les réponses "Oui" ou "Non" des 38 coureuses. Les jeux de données utilisés en statistique ressemblent à des feuilles de calcul. Les lignes du chier sont constituées des unités statistiques, c'est-àdire les individus, objets, groupes que l'on mesure (ici des marathoniennes) et les colonnes des mesures correspondantes (ici une seule mesure). 2.3 La lecture d'un jeu de données avec le logiciel Rcmdr An d'importer le cher Excel "DIARRHF.xls" dans le logiciel R, il faut suivre les étapes suivantes : 1. Lancer le logiciel R (menu "Démarrer" puis option "Tous les programmes" puis "R" puis "R 2.5.1"'. 2. Déclarer le répertoire courant avec le menu déroulant "Fichier" puis l'option "Changer le répertoire courant". Le répertoire courant est celui où se trouvent les jeux de données qui nous intéressent (ici DIARRHF.xls) et où nous sauvegarderons éventuellement des résultats. 3. Il faut charger l'interface interactive de R en utilisant le menu déroulant "Packages" puis l'option "Charger le package", choisir alors le package Rcmdr (une interface graphique doit alors s'ouvrir). 4. Dans le menu déroulant "Données", choisir l'option "Importer des données" puis "Depuis Excel, Access ou dBase...". Dans la fenêtre de dialogue qui s'ouvre, donner un nom au jeu de données, par exemple : digestion 2 . 5. Employer la fenêtre qui s'ouvre alors pour retrouver le chier à importer (DIARRHF.xls). 6. Cliquer alors sur le bouton "Visualiser". Après cette procédure, le jeu de données est actif pour le logiciel R. On peut vérier qu'il est composé d'une unique colonne : PbDigest. 2.4 Les types de mesures La première chose essentielle dans l'analyse d'un jeu de données est de comprendre la nature des mesures. Il existe deux grands types de mesures : les mesures catégorielles et les mesures numériques. La variable "PbDigest" correspond à une mesure catégorielle comme peuvent l'être le sexe, la PCS, le sport pratiqué. Les variables comme la taille, le poids, la vitesse, le volume du mollet . . .sont numériques. Ce chapitre est consacré à l'analyse des mesures catégorielles. 2 Vous pouvez aussi choisir le nom du chier Excel, c'est-à-dire DIARRHF 2.5. LES REPRÉSENTATIONS GRAPHIQUES POUR MESURES CATÉGORIELLES11 2.5 Les représentations graphiques pour mesures catégorielles Les mesures catégorielles s'analysent très simplement, il s'agit de dénombrer le nombre d'unités statistiques dans chaque catégorie. Graphiquement, on représente alors ces catégories de façon proportionnelle an de visualiser leur importance. Le graphique en barres s'obtient en utilisant le menu déroulant "Graphes" puis "`Graphe en barres". Le camembert s'obtient avec le menu déroulant "Graphes" et l'option "Graphe en camembert". On voit qu'il y a plus de réponses positives. 2.6 Les statistiques pour mesures catégorielles Ce sont tout simplement les eectifs de chaque catégories, les fréquences et les pourcentages correspondants. Pour les calculer, employer le menu déroulant "Statistiques" puis l'option "`Résumés" puis "Distributions de fréquences". On lit alors que 26 femmes sur 38 on expérimenté ce type d'inconvénients soit un pourcentage de 68%. Ce résultat est tout simplement alarmant ! Comment est-il possible qu'un tel problème, qui entrave fortement les performances, soit si peu évoqué ? 2.7 Problèmes classiques concernant les proportions 2.7.1 Les problèmes de sondage Avant de paniquer, il faut toujours commencer par comparer le résultat issu de notre échantillon à d'autres résultats obtenus dans des contextes sinon similaires, du moins où la comparaison a du sens. Le jeu de données DIARRHH.xls comprend les réponses de 233 hommes participant à cette épreuve à la même question. Exercice 1 Analyser ce jeu de données. Comparer le au résultat des femmes. Quel avantage présente ce jeu de donnée sur le précédent ? Avec les mesures catégorielles, il importe d'avoir une taille d'échantillon relativement grande an de pouvoir réaliser des calculs précis de pourcentages. Il importe aussi de se demander s'il y a des non-réponses an de voir si notre échantillon peut être considéré comme représentatif. 2.7.2 Extension à l'étude de plus de deux catégories Nous avons jusqu'à présent étudié des cas ou seules deux catégories existaient. Le chier FFHANDI.xls contient la nature du handicap des licenciés 12CHAPITRE 2. ETUDE DESCRIPTIVE D'UNE MESURE CATÉGORIELLE (PROPORTIONS) (1991) de la Fédération Française Handisport. Nous allons voir que l'analyse se généralise sans diculté à plus de deux catégories. Exercice 2 Utiliser les méthodes précédentes pour décrire la répartition des li- cenciés dans ces catégories. Que signie la catégorie "Autres" ? N'y a-t-il pas une catégorie dont la présence est surprenante ? Quel peut être l'intérêt de connaître également la fréquence de ces diérents handicaps dans la population française ? Voyons à présent dans le cadre d'une étude des pratiques sportives des camerounais (de 15 à 75 ans) la généralisation à un nombre plus important de catégories : le sport pratiqué par les sondés. Le jeu de données cameroun1.xls comprend les résultats d'un sondage eectué sur 395 individus. Ce sondage a été réalisé dans la région de Yaoundé par une méthode de quotas basés sur le sexe, l'âge et la répartition urbaine-rurale. La question exacte était :"Depuis le début de l'année 2005, avez-vous pratiqué une ou plusieurs activités physiques (oui/non). Si oui, quelles activités" avec une consigne de relance sur les pratiques auto-organisées (footing, gym à domicile. . .). Seulement quatre réponses par sondé étaient possibles, il s'agit ici de la première citée. Exercice 3 Analyser la variable EPS qui décrit l'activité sportive déclarée par le sondé. En particulier réaliser le graphe en barres et le graphe en camembert. Quel est le nouveau problème qui se pose ici ? Dans cet exercice, le grand nombre de catégories rend dicile l'analyse. Les solutions qui s'orent à nous sont soit de regrouper les catégories en sousensemble qui ont du sens (sport de combat, sport de ballon. . .) soit de créer une catégorie "Autre" qui regroupe les catégories ayant les plus petits eectifs. An de visualiser l'ensemble, on peut aussi utiliser un graphe particulier, le graphe en points, qui n'est malheureusement pas disponible dans la version interactive de R. Remarque 4 Il est possible d'employer R dans une version langage de com- mandes qui est beaucoup plus puissante. On tape alors des commandes dans la fenêtre de script puis on clique sur le bouton "Soumettre". Le résultat s'ache soit dans la fenêtre de sortie soit dans une fenêtre graphique. Exercice 5 Soumettez successivement les 4 ordres suivants : 1. cameroun$APS 2. table(cameroun$APS) 3. dotchart(table(cameroun$APS)) 4. dotchart(sort(table(cameroun$APS))) Que font ces lignes de commandes ? Quelles sont les catégories les plus importantes ? Quelles catégories suggérez-vous de regrouper dans une catégorie "Autres" ? 2.7. PROBLÈMES CLASSIQUES CONCERNANT LES PROPORTIONS 13 Exercice 6 Quelle marque utilisent les pratiquants de rollers ? Est-ce que ce choix dépend de l'âge, du sexe, du type de pratique, de leurs motivations ? Une étude par questionnaire (non publiée, A. Ferrand & S. Champely, CRIS) a été menée auprès de 786 pratiquants lyonnais interrogés sur leur lieu de pratique (skate park de gerland, parc de la tête d'Or, pont Moran. . .). La variable P11 du chier ROLLERSONDAGE.xls indique la marque utilisée par le sondé. Etudier cette répartition. Dans quelle mesure ce résultat décrit-il le marché français du rollers ? Comment croiser cette information avec le type de pratique (agressif vs. tness) ? 2.7.3 Les données ordinales Les lyonnais sont-ils satisfaits de leurs piscines municipales ? Quels nouveaux équipements aimeraient-ils utiliser ? Le service des sports a commandé au CRIS (Vignal et al. [16]) un sondage des usagers des quatre piscines municipales d'hiver. Une technique de sondage aléatoire mixte (stratiée et systématique) a été mise en place pendant une semaine. Le chier sauna.xls comprend les réponses de 687 sondés à cette enquête. La question portait ici sur l'implantation d'un sauna, était-elle : Trés souhaitée, Souhaité, Indiérent, Pas souhaité, Pas du tout souhaitée ? Exercice 7 Analyser ces souhaits en utilisant les méthodes précédemment dé- crites. Quelle est la nouveauté concernant ces catégories et en quoi les graphes ne sont pas très bons ? Comment regrouper habilement de telles catégories ? Remarque 8 Pour modier l'ordre de catégories, il faut utiliser le menu dé- roulant "Données", l'option "Gérer les variables dans le jeu de données actif", puis "Réordonner une variable facteur". Exercice 9 En reprenant l'étude des pratiquants de rollers, plusieurs questions appelaient aussi des réponses ordinales. Ces questions étaient : Pour quelles raisons faites-vous du roller : (1) pour m'entretenir physiquement (variable M1PHYS) , (2) parce que c'est un moyen de transport (variable M2TRANS) , (3) pour me faire peur (variable M5PEUR), (4) pour m'exprimer (variable M6EXPRIM), (5) pour rencontrer des gens (variable M12RENC). Les réponses, échelonnées de 1 (pas du tout important pour moi) à 5 (très important pour moi) constituent des échelles de Likert. Etudier les réponses à ces 5 questions. Comment suggéreriez-vous de regrouper simplement les catégories ? A votre avis, quelles informations serait-il intéressant d'exploiter pour mieux saisir les motivations des pratiquants ? Noter la présence de données manquantes peut-il nuire à l'analyse ? pour la variable M6EXPRIM ; en quoi ceci 14CHAPITRE 2. ETUDE DESCRIPTIVE D'UNE MESURE CATÉGORIELLE (PROPORTIONS) Chapitre 3 Etude descriptive d'une mesure numérique (moyenne et . . .) 3.1 La lecture du jour : Rousseeuw [6] L'article de Rousseeuw [6] est une introduction à une approche non traditionnelle des mesures numériques. A près des décennies de description et d'inférence reposant sur la moyenne et l'écart-type dans un contexte particulier dit de la loi normale, on s'aperçoit qu'en dehors de ce contexte ces techniques fonctionnent mal, en particulier en présence de points extrêmes, et qu'il faut donc chercher des méthodes statistiques qui soient robustes. Cet article se limite volontairement à des méthodes simples basées sur la notion de médiane que nous reprendrons et confronterons aux approches traditionnelles. 3.2 La situation : des données numériques La noradrénaline est un médiateur chimique qui peut constitué un bon indicateur de la récupération des athlètes eectuant des eorts intenses (Sagnol et al. ??). Le chier PLASMA.xls contient les concentrations en noradrénaline dans le plasma de six coureurs le matin de l'épreuve (triathlon de 10h) (dites valeurs basales et celles prises le lendemain. Il s'agit de voir s'ils ont complètement récupéré. Nous allons nous limiter ici dans un premier temps à l'étude des valeurs basales. Le chier PLASMA.xls comporte donc 2 colonnes : "basale" et "lendemain" pour 6 lignes de valeurs. Il faut commencer par importer ce chier dans le logiciel R selon la procédure dénie en 2.3 15 2.6 3.2 ● ● ● 2.0 plasma$basale 16CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .) ● 1 ● ● 2 3 4 5 6 Index 2.0 2.4 2.8 3.2 Noradrénaline 3.1 Graphe indexé et ligne de points pour les valeurs basales de noradrénaline Fig. 3.3 Représentations graphiques pour données numériques 3.3.1 Le graphe indexé Le premier graphe disponible dans Rcmdr est le graphe indexé. Il indique en abscisses le numéro de la mesure et en ordonnées sa valeur. On obtient ce graphe en utilisant le menu déroulant "Graphes" et l'option "Graphe indexé". Les mesures basales (gure 3.1) s'échelonnent généralement de 2.0 à 3.2, cette dernière valeur semblant toutefois relativement éloignée des autres (un point extrême ?). Remarque 10 L'utilisation du numéro de mesure n'est pas vraiment utile et il est sans doute aussi intéressant de placer toutes les valeurs sur une même ligne. Ceci doit se faire en utilisant la commande suivante dans la fenêtre de script et en soumettant : stripchart(plasma$basale,xlab="Noradrénaline") 1 Le problème étant que les valeurs égales sont parfois superposées , pour les empiler on peut utiliser : stripchart(plasma$basale,xlab="Noradrénaline",method="stack") Exercice 11 Construire ces deux graphiques (graphe indexé et la ligne de points) sur les valeurs du lendemain. Que dire par rapport au graphe précédent ? 1 Cen'est pas le cas en l'espèce 3.3. REPRÉSENTATIONS GRAPHIQUES POUR DONNÉES NUMÉRIQUES17 3.3.2 Le graphe de dispersion Dans l'exemple précédent, il y a très peu de données, on cherche donc à les représenter individuellement. En revanche, lorsque le nombre de données est plus grand, il convient d'employer d'autres techniques. Nous allons travailler sur le chier ASVELSONDAGERA.xls, qui contient les réponses de supporters rhône-alpins de l'équipe de basket de Villeurbanne. Elle correspondent à une étude sur la délité de ces supporters (A. Ferrand et S. Champely, CRIS, article soumis). Les supporters ont été choisis sur la base d'un sondage aléatoire simple (basé sur les numéros de place). La taille de l'échantillon est de ? ? ?, le taux de non-réponse est faible. Nous allons dans un premier temps nous limiter à l'étude de l'âge de ces supporters (variable Age). Exercice 12 Réaliser le graphe indexé, une ligne de points et une ligne de points empilés sur ces données. Lequel de ces graphe est le plus intéressant ? An de résumer les aspects essentiels du jeu de données, la boîte de dispersion indique la valeur centrale par un trait gras, indique l'étendue des données par (1) une boîte et (2) des moustaches et (3) des points2 . Ce graphique est disponible par le menu déroulant "Graphes" et l'option "Boîte de dispersion". On voit (gure 3.2) que la valeur typique est située entre 20 et 25 ans et que les valeurs supérieures à 60 sont détaillées. 3.3.3 L'histogramme L'histogramme est une technique qui consiste à regroupe les mesures en un certain nombre de catégories et à réaliser un graphe en barres le long d'une échelle numérique indiquant ces catégories. Le menu déroulant "Graphes" donne accès à l'option "Histogramme". Ce graphique est surtout intéressant lorsque le nombre de mesures est important (n=50). Il permet alors de décrire la concentration des données. Avec un faible nombre de valeurs, il devient très instable en fonction du choix des intervalles dénissant les groupes. L'histogramme a ici une forme dite dissymétrique, les données sont nombreuses de 10 à 30 ans, puis avec une moindre concentration, les données s'étalent sur la droite. 3.3.4 Le graphe quantile-quantile Ce graphe cherche à confronter l'histogramme des données à une forme prototypique, celle de la loi normale3 dite aussi courbe en cloche. Il est très important de déterminer si les données suivent approximativement cette forme car les procédures statistiques que nous verrons par la suite sont généralement basées sur cette hypothèses. Lorsque les données suivent la loi normale, les points sont situés exactement sur une droite. Toutefois, un écart est inévitable, l'écart normal 2 Nous verrons plus tard la signication précise 3 Beaucoup de choses plus loin à ce sujet des ces trois niveaux de mesure d'étendue 18CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .) 50 10 30 Age 70 ● ● ● ● ● ● ● ● ● 10 20 30 40 50 60 70 70 50 10 30 asvel$Age 100 50 0 Frequency 150 Age 10 20 30 40 50 60 70 asvel$Age ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● −3 −2 −1 0 1 2 ● 3 norm quantiles 3.2 Ligne de points empilés, boite de dispersion, histogramme et graphe quantile-quantile pour l'âge des supporters de l'ASVEL Fig. 3.4. STATISTIQUES DE CENTRALITÉ 19 étant symbolisé par deux courbes en pointillées sur le graphe. On constate sur cet exemple que les données sont peu compatibles avec l'hypothèse de normalité, la forme des points étant franchement courbe, ce qui a à voir avec la dissymétrie observée sur l'histogramme. 3.4 Statistiques de centralité Les graphiques permettent de repérer les aspects essentiels de la distribution (concentration) des données. Il convient ensuite de passer à une description plus précise basée sur des calculs que l'on appelle des statistiques. Les statistiques servent à décrire un aspect précis des mesures. Nous allons commencer par des statistiques qui s'attachent à décrire la mesure typique de l'échantillon, ou pour le dire autrement, sa localisation. La statistique la plus classique pour ce faire est la moyenne, il s'agit de la somme des mesures divisée par leur nombre. Le menu déroulant "Statistiques" avec l'option "Résumés" puis "Statistiques descriptives" donne pour les valeurs basales de noradrénaline une moyenne de M = 2.384 . La moyenne n'est pas la seule façon de quantier la centralité, la notion de médiane est également importante : la médiane est une valeur telle que la moitié des mesures lui sont inférieures (et l'autre moitié supérieures). On trouve ici M d = 2.25. La diérence est ici faible entre ces deux statistiques de centralité. Ce n'est pas toujours le cas. En particulier, lorsqu'il existe des mesures extrêmes (cf la lecture du jour [6]) ou bien une dissymétrie des données, c'est-à-dire que les mesures s'écartent plus d'un côté de la valeur centrale que de l'autre, moyenne et médiane peuvent être très diérentes. Il convient alors de privilégier la médiane qui est plus robuste, c'est-à-dire qu'elle est moins inuencée par les valeurs exceptionnelles. Exercice 13 Calculer la moyenne et la médiane pour les valeurs du lendemain. Exercice 14 Pour les supporters de l'ASVEL, calculer la médiane et la moyenne de la distance entre leur domicile et la salle de l'Astroballe. La diérence est-elle importante ? Réaliser un histogramme de ces données. Quel est le problème ? 3.5 Statistiques de variabilité Au delà de la notion de centralité, la statistique accorde une importance toute particulière à la notion de variabilité. Il s'agit de prendre conscience de la variabilité naturelle des mesures et du fait que la relation ne sont pas déterministes. Il existe toujours autour de la mesure typique des écarts, la statistique propose justement de les quantier. La façon la plus simple de quantier la variabilité est l'étendue, il s'agit de l'écart entre la valeur maximum et la valeur minimum du jeu de données. 4 On note parfois la moyenne y 20CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .) On trouve pour la noradrénaline 1.94 et 3.29, ce qui conduit à une étendue de 1.35cm. L'atout majeur de cette statistique est la simplicité mais elle est malheureusement absolument pas résistante. Pour cette raison, on lui préfère l'écart inter-quartiles. Les quartiles sont des généralisations de la médiane, il s'agit cette fois de découper les données en 4 sous-ensembles (et non pas 2) de même eectifs : un quart des données est ainsi inférieur au premier quartile, ici Q1 = 2.0475, une moitié au deuxième quartile qui n'est autre que la médiane et trois quart au troisième quartile ici Q3 = 2.475. Les quartiles sont beaucoup plus résistants que les extrémités5 , aussi l'étendue inter-quartiles donne une indication stable de la variabilité des données et plus précisément de sa partie centrale. La statistique de variabilité la plus classique est l'écart-type. Elle n'est cependant ni la plus facile à calculer ni la plus résistante. On doit pour l'utiliser à bon escient vérier sur les graphiques que la distribution est symétrique et qu'il n'y a pas de données extrêmes. L'écart-type est en l'espèce égal à SD = 0.496. Cette quantité indique la façon dont les données s'écarte usuellement de la valeur moyenne, il s'agit en quelque sorte d'une moyenne des écarts. Pour ceux qui aiment les formules 15 Si les données sont y1 ,. . .,yn , l'écart- type est égal à s SD = où y 1X (yi − y)2 n i est la moyenne. Une version robuste de l'écart-type est le M AD (median absolute deviation), elle s'obtient en employant la commande suivante dans la fenêtre de script et en soumettant : mad(plasma$basale) On trouve ici M AD = 0.393 moins élevé que l'écart-type, la contribution de la valeur 3.29 au calcul étant minimisée. Exercice 16 Calculer les quatre statistiques de variabilité pour les valeurs du lendemain. Remarque 17 On présente très souvent les résultats d'un échantillon de me- 6 : sures numériques sous la forme M ± SD. Nous avons donc également la version robuste : M d ± M AD. 5 Bien qu'avec une taille d'échantillon aussi petite que n=6, on ne puisse avec qu'une donnée extrême du même côté 6 qui n'a de sens que pour des données symétriques 3.6. POUR ALLER PLUS LOIN AVEC LES DONNÉES NUMÉRIQUES 21 3.6 Pour aller plus loin avec les données numériques An de savoir quelles statistiques de centralité et de variabilité il est préférable d'utiliser, on doit connaître la forme des données. Trois aspects sont essentiels, la forme, la multi-modalité et les mesures extrêmes. 3.6.1 La notion de symétrie Exercice 18 Reprendre la variable "Dist"' du jeu de données ASVELSONDA- GERA.xls. Réaliser un histogramme de ces données Recommencer en choisissant 20 comme nombre de classes est-ce que cet histogramme à une courbe en cloche ? comment décrire la forme de cet histogramme ? L'étude de symétrie essaie de préciser comment s'exerce la variabilité, c'està-dire la façon dont les mesures s'écartent de la valeur centrale. Les mesures peuvent en eet s'en écarter de la même façon à gauche et à droite, un peu comme un miroir, on parle alors d'échantillon symétrique ou bien s'écarter de façon plus étendue dans un sens, on parle alors d'échantillon dissymétrique. Les tests physiques et les mesures anthropométriques sont généralement symétriques. En revanche, les mesures telles que le salaire des individus, la durée de vie d'un équipement sont souvent dissymétriques. La symétrie se détecte sur les graphiques, mais aussi selon la position des deux quartiles par rapport à la médiane. Si la distribution est dissymétrique, la moyenne est généralement attirée du côté le plus étendu et donne donc une mesure faussée de la valeur typique. De même, l'écart-type, en ne distinguant pas les écarts bien diérents de chaque côté de la moyenne constitue un compromis qui n'est pas satisfaisant dans ce type de situation. On leur préférera donc la médiane et les quartiles. Remarque 19 An de résoudre le problème des distributions dissymétriques, on emploie souvent la technique des transformations. Il s'agit de trouver une formule mathématique qui transforme la variable dissymétrique en une nouvelle variable plus symétrique. L'analyse statistique est alors plus facile. En revanche, on perd l'avantage des unités de mesures originelles souvent mieux connues. Les transformations les plus connues sont le logarithme, la racine carrée et l'inverse. Exercice 20 Pour les données de distances entre l'astrovalle et le domicile des supporters de l'ASVEL, utiliser le menu déroulant "Données" et l'option "Gérer les variables dans le jeu de données actif" puis "Calculer une nouvelle variable". Dans la fenêtre de dialogue, en tant que variable existante indiquer : "Dist", en tant que nom de la nouvelle variable indiquer : "logdist" et en tant qu'expression à calculer : "log(Dist)". Réaliser un histogramme sur la nouvelle variable : "logdist". Que constatezvous ? 22CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .) Exercice 21 Le jeu de données TRANSFERTS.xls contient les montants (en Francs 1999) des 93 transferts de la Ligue 1 de football. Réaliser un histogramme de ces données Recommencer en choisissant 20 comme nombre de classes Comment décrire la forme de cet histogramme. Utiliser le menu déroulant "Données" et l'option "Gérer les variables dans le jeu de données actif" puis "Calculer une nouvelle variable". Dans la fenêtre de dialogue, en tant que variable existante indiquer : "Montant", en tant que nom de la nouvelle variable indiquer : "TransLog" et en tant qu'expression à calculer : "log(Montant+1)". Réaliser un histogramme sur la nouvelle variable : "Translog". Que constatezvous ? Pourquoi avoir utiliser la formule log(x + 1) plutôt que tout simplement log(x) ? 3.6.2 la multi-modalité Exercice 22 Le chier ROLLERS.csv contient le prix de rollers (en Francs 2000) pour 224 pratiquants de la région lyonnaise. Réaliser un histogramme de ces données. Recommencer en choisissant comme nombre de classes : 15. Analyser la forme de cet histogramme. Que constatez-vous ? Que pensez-vous de la notion de valeur typique dans ce contexte ? Il arrive que les données ne soient pas regroupées autour d'une unique valeur centrale mais qu'il existe plusieurs groupes. On parle alors de multimodalité. Dans ce cas, chaque groupe devrait faire l'objet d'une description quantiée, mais cette analyse (dite analyse de mélange) est complexe et ne sera pas envisagée. On se contentera de descriptions verbales. 3.6.3 Les données extrêmes Il est essentiel de repérer les données diérentes de l'ensemble des mesures, soit an de corriger des erreurs, soit an de les étudier, car par leur marginalité, elles peuvent souvent être riches d'enseignement. Comme le dit l'article de Rousseew ??, pour une donnée x la pratique habituelle de la standardisation : x−M z= SD est viciée par les problèmes de robustesse des deux statistiques employées. Les points extrêmes peuvent alors se trouver cachés. Il vaut donc mieux employer : z0 = x − Md M AD et comparer cette valeur à un seuil de 2.5. 3.6. POUR ALLER PLUS LOIN AVEC LES DONNÉES NUMÉRIQUES 23 En reprenant les données de noradrénaline basale, on a donc z = 3.29−2.376667 = 0.4958898 = 2.65 . On peut déjà conster sur ce petit exemple cet eet 1.84 et z 0 = 3.29−2.25 0.392889 de robustesse. Remarque 23 La boîte de dispersion employer une méthode un peu diérente et permet de les repérer visuellement. 24CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .) Chapitre 4 Comparaison descriptive d'une moyenne à une norme 4.1 La lecture du jour : Kotrlik & Williams [7] Cet article présente les motivations essentielles pour l'incorporation de mesure de tailles d'eet (eect size ) dans les articles publiés à côté des classiques tests de signicativité, en particulier le fait qu'il constitue une mesure directe de ce qui intéresse le chercheur : l'amplitude concrète du phénomène observé. Les mesures de taille d'eet principales sont données pour les situations les plus classiques, nous les retrouverons tout au long de ce cours. Enn, des valeurs conventionnelles pour juger qualitativement de la taille de ces eets sont également présentées. La présentation des tailles d'eet est encouragée par le très inuent manuel de l'American Psychological Association et peut maintenant être considérée comme une norme de publication. 4.2 La situation de comparaison à une norme G. Coquelin lors d'un stage de M2PPMR à l'AS Gien Football est responsable de la catégorie 15 ans a réalisé une série de tests physiques sur ses joueurs an de réaliser un état des lieux. Le chier COQUELIN.xls comporte donc pour 16 individus la mesure de leur endurance vitesse (test 4*10 en navette), de leur puissance aérobie (VMA, test Vameval), de leur détente verticale et des 5 enjambées. Nous allons travailler sur les valeurs de VMA. On peut représenter graphiquement les données à l'aide du graphe indexé. On constate que la majorité des résultats vont de 14.5 à 17.0. Il est très intéressant de posséder une valeur de comparaison an de pouvoir situer des valeurs. Une première méthode est de disposer d'une "norme", c'est25 26CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME à-dire d'une valeur moyenne calculée sur une population de référence. Le plus souvent, il s'agit de la population générale correspondante (même âge, même sexe...). Mais en l'espèce, il existe une valeur mesurée sur l'élite de l'INF Clairefontaine pour des joueurs du même âge. La valeur moyenne de l'élite est de 17.35 pour la VMA. Il s'agit donc de voir si le groupe de joueurs est éloigné des caractéristiques de l'élite (pour choisir éventuellement un type spécique de travail). 4.3 Représentation graphique et comparaison à la norme Avec n=16 mesures, l'histogramme n'est pas le graphique le plus adapté. On peut alors hésiter entre le graphe indexé qui donne les valeurs individuelles, la boîte de dispersion, le graphe quantile-quantile voire la ligne de points1 . Il s'agit ensuite d'ajouter au graphique une ligne verticale ou horizontale symbolisant la situation de la norme. Ceci ne peut être fait qu'en entrant au clavier une ligne de commandes dans la fenêtre de script et en la soumettant. Ainsi, après avoir tracé un graphe indexé, une boite de dispersion ou un graphique quantile-quantile, il faut taper la ligne : abline(h=17.35,col="red",type=2) après avoir tracé un histogramme, il faut taper la ligne : abline(v=17.35,col="red",type=2) Remarque 24 Le graphique le plus adapté est sans doute la ligne de points, elle demande de soumettre deux lignes de commandes dans la fenêtre de script : stripchart(coquelin$VMA,method="stack",xlab="VMA") abline(v=17.35,col="red",type=2) Quel que soit le graphe employé (cf gure 4.1), la conclusion est la même, il est très rare que les joueurs du groupe aient une puissance équivalente à la norme dénie. Exercice 25 Les données du chier DAUCHEZ.xls ont été réunies par B. Dau- chez (M2PPMR) sur un groupe de joueurs et joueuses de tennis. On s'intéressera en particulier au résultat du test navette de Luc Léger. La norme fournit par la FFT est de 12.75 pour ce test. réaliser les graphiques Quel est le graphique le plus adapté à votre sens ? Reprenez ce graphique et ajoutez la norme de la FFT. Qu'observez-vous ? Pouvez-vous trouver dans le chier de données des explications aux valeurs 2 éloignées de la norme ? 1 qui malheureusement n'est pas directement disponible dans l'interface 2 Utiliser l'option graphique nuage de points avec l'âge et le sexe graphique 5 10 14.5 15.5 16.5 17.5 VMA coquelin$VMA 14.5 15.5 16.5 17.5 4.3. REPRÉSENTATION GRAPHIQUE ET COMPARAISON À LA NORME27 15 3 2 1 0 Frequency 4 Index 14 15 16 17 coquelin$VMA 18 14.5 15.5 16.5 17.5 VMA 4.1 Graphe indexé, Boîte de dispersion, histogramme et ligne de points sur les données de VMA de Coquelin. La norme fournie par l'élite de Clairefontaine est indiquée par une ligne rouge en pointillés Fig. 28CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME 4.4 La mesure de la taille de l'eet An de quantier la comparaison, il s'agit de mesurer l'éloignement de notre échantillon de mesures à la norme. La norme constitue ce qu'on appelle en statistique une hypothèse. L'éloignement de l'échantillon est appelé un eet qui est en quelque sorte l'eet de l'entraînement et des capacités de ce groupe par rapport à l'entraînement et aux capacités du groupe de l'élite. Il convient donc de mesurer l'importance de cet eet grâce à une statistique appelée taille d'eet (et notée ES : eect size). On distingue la taille d'eet absolue : M − norme et la taille d'eet relative3 d= M − norme . SD On obtient ici4 comme taille d'eet absolue : 15.63312 − 17.35 = −1.71688 et comme taille d'eet relative d = (15.63312 − 17.35)/0.9367441 = −1.832816. La taille d'eet absolue peut s'interpréter directement dans les unités originelles. Il s'agit de bien connaître le test physique en question et de décider l'importance pratique d'une diérence de VMA de 1.7. La taille d'eet relative s'émancipe des unités originelles et a l'avantage de permettre de comparer des mesures eectuées dans des unités diérentes ou des unités moins connues. Comme guide, il a été proposé par Cohen[3] un classement qualitatif de ces tailles d'eet sur la base de d = 0.2 constitue un eet faible, d = 0.5 un eet moyen et d = 0.8 un eet fort. L'eet ainsi mesuré est incontestablement un fort eet. Exercice 26 Pour les données des joueurs de tennis de Dauchez, calculer l'eet par rapport à la norme de la FFT. Exercice 27 C. Ferrand (CRIS) s'intéresse aux désordres alimentaires (ano- rexie, boulimie...) chez des jeunes lles pratiquant des activités sportives avec des exigences esthétiques fortes : natation synchronisée et gymnastique rythmique. Un groupe de contrôle de jeunes lles non sportives est également mesuré. Parmi une batterie de tests, nous retiendrons le test d'estime de soi, qui mesure l'opinion qu'un individu a de lui même. Ce test prend des valeurs allant de 10 (opinion très mauvaise) à 40 (opinion excellente). Dans la population française, la valeur moyenne de ce test est de 32.88. Importer le jeu de données ALIMENTATION.xls, l'estime de soi correspond à la variable ES. An de distinguer les trois populations (natation synchronisée, 3 Il est bien évident que 4 en tapant directement le calcul avec des statistiques robustes est intéressant dans la fenêtre de script et en soumettant la commande 4.5. LES TAILLES D'EFFET POUR LES PROPORTIONS 29 gymnastique rythmique et sportive et contrôle), lors du calcul des statistiques descriptives, on précisera, en utilisant le bouton "Résumer par groupes" la variable nomination qui eectuera les calculs selon les trois groupes. Calculer la taille d'eet relative des jeunes lles non sportives par rapport à la population générale. an de réaliser un graphique limitée aux jeunes lles non sportives (groupe GT), il faut sélectionner un sous-ensemble d'unités statistiques. La procédure consiste à utiliser le menu déroulant "Données", l'option "Jeu de données actif", "Sous-ensemble...", dans "Expression de sélection" taper : Nomination=="GT" et dans "Nom du nouveau tableau per : alimentationGT. On peut alors analyser ce nouveau de données" tatableau. Réaliser un histogramme de ces valeurs d'estime de soi et indiquer la norme générale de 32.88. Idem avec une ligne de points empilés. En fait, on remarque souvent que les femmes et les jeunes lles ont une estime de soi plutôt faible. On se servira donc pour calculer les tailles d'effet relatives des deux autres groupes non pas de la norme de la population générale mais bien plutôt de celle de ce groupe de contrôle. Calculer les deux tailles d'eet correspondantes. Qu'en dites-vous ? 4.5 Les tailles d'eet pour les proportions En ce qui concerne les proportions, il est aussi possible de calculer des tailles d'eet par rapport à une hypothèse. Ainsi en ce qui concerne les joueurs de tennis, il est souvent remarqué qu'il existe beaucoup de gauchers parmi eux. Dans le groupe de Dauchez, on en repère ainsi 3 sur 10. Or dans la population française, il y a environ 10% de gauchers. Il existe plusieurs méthodes pour calculer une taille d'eet, les deux plus classiques étant simplement de calculer la diérence entre la proportion observée p et la norme p − N orme. ou le rapport entre ces deux proportions5 p . N orme Nous obtenons dans le cas présent une diérence de 0.30 − 0.10 = 20% soit 20% de gauchers en plus dans l'échantillon ou un rapport de 0.30 0.10 = 3, soit trois fois plus de gauchers dans l'échantillon que dans la population française. Exercice 28 Les catégories dans les diérents sports sont dénies en fonction de l'âge (poussins, benjamins. . .). Or, à l'intérieur d'une même catégorie, une diérence d'un an est considérable en termes de potentiel physique. Il est donc possible que le fait d'être né à la n de l'année soir un désavantage pour être 5 la plus grande étant généralement employée comme numérateur dans le rapport 30CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME sélectionner au meilleur niveau et ensuite bénécier des meilleures conditions et donc nalement avoir une meilleure progression. Ainsi la probabilité d'être dans le quatrième trimestre de l'année doit être normalement de 25%. En revanche, si cet eet d'âge joue la proportion observée dans le haut niveau doit être sensiblement plus basse. Une étude de 1989 sur la LNH canadienne montre que sur 388 joueurs, 69 sont nés durant le dernier trimestre. Calculer le pourcentage correspondant ainsi que les tailles d'eet suivant les deux méthodes. Remarque 29 Une autre possibilité nettement plus complexe est présentée par Cohen ?? qui est pour comparer p à la norme N orme d'employer la formule : √ √ ES.h = 2(arcsin( p) − arcsin( N orme)). Pour réaliser ce calcul avec les données des tennisman de Dauchez à l'aide de Rcmdr, choisir le menu déroulant "Outils", l'option "Charger des packages" et 6 choisir le package "pwr" . Dans la fenêtre de script, soumettez la commande : ES.h(3/10,0.10) On peut comparer cette valeur aux seuils conventionnels suivants : ES.h = 0.2 ES.h = 0.5 ES.h = 0.8 constitue un eet faible, un eet moyen et un eet fort. L'eet observé est donc moyen. 4.6 La notion de variation d'échantillonnage Nous savons à présent calculer les performances moyennes d'un groupe et mesurer l'écart à une norme. Toutefois, et c'est l'objet de la statistique inférentielle, on souhaite souvent généraliser les résultats obtenus sur un groupe à un ensemble plus grand pour montrer par exemple l'eet d'une méthode d'entraînement au delà de notre groupe. Ceci peut être fait si (1) notre groupe est représentatif de la population à laquelle nous souhaitons étendre nos conclusions, (2) nous prenons en compte le fait que notre échantillon n'est qu'un exemple parmi d'autres échantillons qui auraient pu survenir, c'est ce qu'on appelle les variations d'échantillonnage et (3) nous savons caractériser les variations d'échantillonnage. L'exemple de la proportion de gauchers est ainsi très intéressant pour sensibiliser aux notions que nous allons développer longuement dans le chapitre suivant. Le groupe de joueurs de tennis comportait 3 gauchers sur 10, mais un autre groupe aurait pu comprendre 0, 1, 2, 3, 4 gauchers (voir plus). On voit donc que la statistique calculée varie d'un échantillon à l'autre. 6 Il se peut que ce package ne soit pas installer, installer-le suivant la procédure dénie en A.3.1 4.6. LA NOTION DE VARIATION D'ÉCHANTILLONNAGE 31 Toutefois, on peut de façon intuitive sentir que (1) si la proportion de gauchers est importante chez les joueurs de tennis la statistique prendra des valeurs plus élevées donc , à l'inverse, la valeur de la statistique obtenue d'après l'échantillon doit nous donner une bonne estimation de la valeur réelle dans la population de joueurs et (2) si notre échantillon de joueurs de tennis est plus grand, le calcul de la proportion devrait être plus précis. 32CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME Chapitre 5 Généraliser les résultats obtenus avec une proportion 5.1 Comment généraliser : l'inférence statistique Le mécanisme de généralisation des résultats est appelé en statistique inféCe mécanisme repose sur une idée très importante, l'échantillon d'unités statistiques que nous observons n'est qu'un échantillon parmi d'autres que nous aurions pu obtenir dans une population plus générale que nous souhaitons décrire. rence statistique. Or si cet échantillon est aléatoire, c'est-à-dire s'il a été sélectionné sur la base d'un tirage au sort, ou du moins s'il peut être assimilé à un tel mécanisme de sélection, l'échantillon ressemble à la population dont il est issu, il est représentatif. On peut donc estimer une proportion de la population (la proportion de gauchers par exemple) à partir de la proportion que nous observons dans l'échantillon. Bien plus que cela, la notion de tirage au sort fait qu'on peut dénir par des probabilités, les résultats qui peuvent être issus de la population, en particulier, la répétition d'échantillonnages donne naissance à une répétition de calculs d'une même statistique (ex : une proportion ou une moyenne) qui appelle la distribution d'échantillonnage. Cette distribution d'échantillonnage décrit l'erreur que l'on commet en utilisant la proportion de l'échantillon à la place de la proportion de la population. Cela permet de dénir ce qu'on appelle un intervalle de conance. Une expérience concrète va permettre de comprendre ce qui se passe lorsqu'on utilise un échantillon. Elle servira de base à une courte discussion sur un modèle de probabilité très important : le modèle binomial qui permettra de généraliser les observations faites sur l'expérience concrète à n'importe quel problème concernant des proportions 33 34CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION 5.2 La situation : L'expérience des smarties Les boîtes de smarties contiennent des bonbons de plusieurs couleurs. Nous allons nous intéresser à la proportion de smarties de couleur rouge dans l'ensemble des bonbons produits par cette marque. Bien sûr, on ne peut mesurer l'ensemble des boîtes, il s'agit donc dans un premier temps de compter le nombre total de smarties dans la boite, que nous noterons n, par exemple j'observe n = 32 smarties dans la mienne puis le nombre de smarties rouges que nous noterons y , j'obtiens personnellement y = 7. Il y a donc une proportion de p = ny smarties rouges, soit pour ma part : 7/32 = 22%. Lorsque nous réalisons une étude, nous ne pouvons disposer que d'un seul échantillon de mesures. Nous devons donc généraliser les résultats à partir de cet unique échantillon. Pour ce faire, le statisticien part de la question suivante : que se passerait-il si je disposais d'autres échantillons et que je recommençais le ? Ici nous sommes dans une situation particulière car il est possible d'ouvrir une autre boîte de smarties et de recommencer. On peut observer dans le chier SMARTIES.xls le résultat de l'ouverture de 15 boîtes par un groupe d'étudiants. Le résultat de chaque échantillon est résumé par la proportion de smarties rouges observée. même calcul Exercice 30 Réaliser un histogramme de la variable p du chier SMARTIES.xls qui contient les proportions calculées sur 15 boîtes. Décrivez cet histogramme. Il reste maintenant à savoir ce qui se passerait si on pouvait multiplier (50, 100, 1000) de tels échantillonnages. Les modèles probabilistes permettent de simuler de telles situations c'est pourquoi il est nécessaire de maîtriser quelques notions élémentaires de probabilités an de bien comprendre comment on peut généraliser les résultats d'une expérience telle que celle des smarties. 5.3 Notions de probabilités 5.3.1 Expérience aléatoire et probabilités Lorsque nous ouvrons une boîte de smarties, nous ne savons pas exactement combien nous allons trouver de smarties rouges. Cependant, la proportion de smarties de cette couleur est maîtrisée par le fabriquant, par conséquent, si on ouvre un grand nombre de boîtes, on sent intuitivement que l'on va se rapprocher de cette proportion générale. C'est cette intuition que formalisent les probabilités. Dénition 31 On parle d'expérience aléatoire, s'il est impossible d'en pré- voir l'issue mais qu'en revanche, sur un grand nombre de répétitions, on peut connaître la fréquence avec laquelle les diérents résultats apparaitront. Le livre l'homme-dé de Luke Rhinehart décrit l'expérience suivante : Je ramassais le dé en déclarant : " (A) Si c'est un, trois ou cinq, je vais me coucher ; (B) 5.3. NOTIONS DE PROBABILITÉS 35 si c'est deux je descends demander à Jake la permission d'essayer de revioler Arlène ; (C) si c'est quatre ou six, je veille pour continuer à rééchir à tout ça." Quels sont les résultats possibles ? Á quels résultats correspond l'événement : (C) veiller un peu pour continuer à rééchir à tout ça ? Peut-on prévoir sur un jet de dé si cet événement se réalisera ? Que se passe-t-il à votre avis si on jette le dé un millier de fois ? Nous allons simuler informatiquement le résultat : Taper les lignes suivantes dans la fenêtre de script et soumettez les successivement. c("A","B","A","C","A","C") sample(c("A","B","A","C","A","C"),size=1,replace=T) sample(c("A","B","A","C","A","C"),size=10,replace=T) table(sample(c("A","B","A","C","A","C"),size=10,replace=T)) table(sample(c("A","B","A","C","A","C"),size=10000,replace=T))/10000 Dénition 32 La probabilité d'un événement est la proportion de fois où il se réalise dans une série longue d'une même expérience aléatoire. Une probabilité est toujours comprise entre 0 et 1. Exercice 33 15%. Supposons que la probabilité pour un smarties d'être rouge est de Si j'ouvre deux boîtes de 30 smarties quelle proportion de smarties rouges devrais-je trouver ? Si j'ouvre 1000 boîtes ? 5.3.2 Notion de variable aléatoire (entière) En fait, plutôt que de calculer des probabilités sur des événements, on associe très souvent des valeurs aux résultats des tirages. Ainsi, pour les smarties, si nous nous intéressons à la couleur d'un seul, on peut décider que s'il est rouge on lui aectera la valeur 1 et s'il ne l'est pas la valeur 0. Dénition 34 On parle de variable aléatoire lorsqu'on associe à des résultats x (ces valeurs peuvent être numériques ou d'expérience aléatoire des valeurs non, nous nous limiterons dans ce chapitre aux valeurs entières). La liste des probabilités associées aux résultats possibles d'une variable aléatoire est appelée loi de probabilités. On X prenne la valeur x. note P r(X = x) la probabilité qu'une variable aléatoire Avec l'exemple smarties on a donc1 P r(X = 1) = 0.15 et P r(X = 0) = 0.85. 5.3.3 Représentation graphique d'une variable aléatoire entière Le système de la draft NBA consiste chaque année pour les diérentes franchises à recruter les jeunes joueurs les plus talentueux, provenant soit des équipes universitaires américaines soit, ce qui n'est plus rare maintenant, des meilleures 1 voir exercice 33 36CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION 2 4 6 X Fig. 0.15 0.00 Prob 0.15 Système 2 0.00 Prob Système 1 8 10 2 4 6 8 10 X 5.1 Graphes de probabilités pour les 2 systèmes de la draft NBA équipes européennes. An d'équilibrer la compétition, il a été décidé par les instances de la NBA de laisser aux franchises les plus mal classées l'année précédente la priorité du choix. Pour déterminer l'équipe s'octroyant le premier tour de draft, on aecte le numéro 1 à la mieux classée2 jusqu'à 11 pour la dernière. Plusieurs systèmes aléatoires se sont succédés, nous n'en considérerons ici que deux : Le premier (datant de 1985) repose sur un simple tirage au sort des 1 onze numéros. Il s'agit donc d'un système équiprobable ( 11 pour chaque équipe). Le second (1990) utilisé pour avantager les plus faibles équipes, consiste à mettre soixante-six balles de ping-pong dans une urne, dont onze portent le numéro 11, dix le numéro 10... En ce qui concerne le tirage de la première 1 2 pour le numéro 1, 66 pour le numéro balle, les probabilités sont donc de 66 2... Dénition 35 On appelle graphe des probabilités d'une variable aléatoire en- tière uin graphique en bâtons représentant sur l'axe des X les valeurs entières prises et sur l'axe des Y les probabilités correspondantes (cf. gure Exercice 36 ??). Représenter le graphe de probabilités correspondant au tirage d'un seul smarties. 5.3.4 Résumés numériques pour une variable aléatoire entière Les graphes de probabilités permettent d'avoir une idée de la forme générale de la concentration des probabiilités sur l'échelle des valeurs. Cependant il est nécessaire d'avoir une description précise de leur localisation et dispersion. 2 De celles ne participant pas aux play-os, les plus fortes sont donc d'oce écartées du premier choix. 5.4. UNE VARIABLE ALÉATOIRE ENTIÈRE PARTICULIÈREMENT UTILE : LE MODÈLE PROBABILISTE BI Dénition 37 L' espérance mathématique d'une variable aléatoire entière est la moyenne des résultats possibles pondérés par leurs probabilités. On la note généralement µ (mu). On trouve ainsi µ = 6 pour le premier système et µ = 7.67 pour le deuxième. Commenter ces résultats. Exercice 38 Calculer pour l'expérience du tirage d'un seul smarties l'espérance mathématique. Dénition 39 La variance d'une variable aléatoire entière est la moyenne des carrés des écarts entre les résultats possibles et l'espérance mathématique. Cette moyenne est obtenue en pondérant ces écarts par leurs probabilités respectives. 2 On note généralement la variance σ . Dénition 40 L' écart-type d'une variable aléatoire est la racine carrée de sa variance. On le note σ. On montre que l'on trouve ainsi σ =?? pour le premier système et σ =??? pour le second. Commenter ces résultats. Exercice 41 Calculer pour l'expérience du tirage d'un seul smarties la variance et l'écart-type. 5.4 Une variable aléatoire entière particulièrement utile : Le modèle probabiliste binomial 5.4.1 Le modèle probabiliste binomial Dénition 42 Le modèle probabiliste binomial correspond à des circonstances où il n'y a que deux résultats possibles dans une unique expérience aléatoire : pile/face, correct/défectueux, mort/vivant ; l'un est considéré comme un 3 succès et l'autre comme un échec , les répétitions de cette expérience se réalisent indépendamment les unes des autres et la probabilité de succès reste la même à chaque répétition. Le modèle probabiliste binomial décrit le comportement de la variable aléatoire nombre de succès apparus sur l'ensemble des répétitions. La famille binomiale est engendrée par deux paramètres : le n et π . nombre de ré- pétitions et la probabilité de succès, notés respectivement Ainsi, si la probabilité pour qu'un smarties soit rouge est de 0.15 et que nous ouvrons une boîte de 33 smarties, nous pouvons employer le modèle binomial de paramètres : n = 33 et π = 0.15. 3 Sans qu'il y ait pour autant jugement de valeur... 38CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION Exercice 43 Quels sont les paramètres correspondant au nombre de "pile" dans un lancer de pièce cinq fois de suite ? Quels sont les paramètres correspondant à la roulette russe ? 5.4.2 La loi de probabilités binomiale Dénition 44 Pour n répétitions avec une probabilité de succès π , la probabilité X soit égale à x est qu'une variable aléatoire binomiale P r(X = x) = Cnx π x (1 − π)n−x avec Cnx qui est appelé coecient binomial. On peut calculer cette loi de probabilité en utilisant le menu déroulant "Distributions" , l'option "Distributions discrètes" puis "Distribution binomiale" puis "Probabilités binomiales". Dans la fenêtre de dialogue, il faut alors préciser le nombre d'essais (n) et la probabilité de succès. Reprenons notre problème de smarties avec n = 33 essais et une probabilité de succès de π = 0.15, la probabilité d'obtenir 5 smarties rouges est donc de P r(X = 5) = 0.19035. On peut tracer un graphe de la loi de probabilité correspondante avec l'option "Graphe de la distribution binomiale". Exercice 45 Observer comment le graphe de la distribution binomiale évolue π = 0.25, π = 0.5, π = 0.7, n = 33. lorsque vous modier la probabilité de succès en π = 0.9, π = 0.95 Exercice 46 en conservant le paramètre Représenter graphiquement les lois de probabilités correspondant aux jeux de paramètres suivants : (n = 10,π = 0.1), (n = 10,π = 0.25), (n = 10,π = 0.5), (n = 10,π = 0.85). 5.4.3 Espérance mathématique et variance binomiales Dénition 47 paramètres n et L'espérance mathématique d'une variable aléatoire binomiale de π est égale à nπ et sa variance à nπ(1 − π). An de calculer l'espérance, la variance et l'écart-type pour une distribution binomiale comportant n = 33 essais et une probabilité de succès de π = 0.15 il faut écrire dans la fenêtre de script les trois commandes suivantes et les soumettre successivement : 33*0.15 33*0.15*(1-0.15) sqrt(33*0.15*(1-0.15)) On voit qu'il faut en moyenne s'attendre à 5 smarties (µ = 4.95). 5.5. MODÈLE PROBABILISTE BINOMIAL ET DISTRIBUTION D'ÉCHANTILLONNAGE D'UNE PROPORTIO Exercice 48 Trouver l'espérance mathématique et l'écart-type pour les distri- butions binomiales suivantes : n = 20 et π = 0.50 ; n = 40 et π0.20 ; n = 200 et π = 0.80. 5.4.4 Les probabilités cumulés Il est souvent utile de calculer des probabilités binomiales cumulées, par exemple la probabilité d'observer 2 succès ou moins ou bien la probabilité d'observer plus de 4 succès. Pour ce faire, il est nécessaire d'employer l'option "Probabilités binomiales cumulées". Exercice 49 π = 0.15 Pour une variable aléatoire binomiale X de paramètres n = 33 et : Calculer à l'aide du logiciel R : P r(X > 5) et P r(X = 2), P r(X = 0), P r(X = 9), P r(X ≤ 5). Représenter par un graphique en bâtons sa loi de probabilités. Exercice 50 estimée à La probabilité de contact des sondés au téléphone est généralement 60 %. Nous décidons de lancer une vague d'appels de 200 personnes. On considérera que le nombre de personnes que l'on va parvenir à contacter suit une loi binomiale de paramètres n = 200 et π = 0,6. Quel nombre moyen de personnes peut-on espérer toucher dans cette première vague d'appels ? Quelle est la probabilité de contacter au moins 150 personnes ? Combien de personnes faudrait-il appeler pour espérer, en moyenne, contacter 150 personnes ? 5.5 Modèle probabiliste binomial et distribution d'échantillonnage d'une proportion Il existe deux conceptions majeures d'une population en statistique. Dans la première, la population (bien que grande) est nie et clairement délimitée. Une véritable échantillonnage aléatoire est pratiqué pour connaître la population. C'est le domaine des sondages. Dans la seconde conception, qui est celle exposée dans ce cours, un modèle probabiliste va tenir lieu de population idéale (de taille innie) et on considérera que les données recueillies ne sont qu'un échantillon aléatoire provenant de ce modèle. Dénition 51 Un paramètre est un nombre qui décrit la population/modèle. Il est constant (et inconnu en inférence statistique). 40CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION Une statistique est un calcul mené sur un échantillon. Sa valeur se modie d'un échantillon à l'autre, elle est donc une variable aléatoire. Elle servira à estimer les paramètres de la population. Une fois le modèle posé, la théorie des probabilités permet d'étudier les propriétés des échantillons qui en sont issus. Voyons ce qui se passe avec un modèle binomial dans une situation proche de celle de l'expérience smarties. La véritable valeur du paramètre sera xée arbitrairement pour les besoins de cette simulation à π = 0.15. Générons grâce au logiciel R un échantillon correspondant à un nombre d'eesais de n = 33 et calculons la proportion p correspondant au nombre de succès y obtenus. Pour eectuer cette simulation, on utilise le menu déroulant "Distributions", l'option "Distributions discrètes" puis "Distribution binomiale", puis "Echantillon d'une distribution binomiale". Dans la fenêtre dialogue, il faut indiquer pour "Nombre d'essais" : 33, pour "Probabilité de succès" : 0.15, pour "Nombre d'échantillons" : 1 et pour "Nombre d'observations" : 1. Un jeu de données est alors créé qui s'appelle par défaut "`EchantillonsBinomiaux"'. Il se trouve sur ma machine que la valeur est pour ce tirage de y = 3 ce qui 3 = 0.091. conduit à une proportion observée de p = ny = 33 Un autre tirage conduira (probablement) à une autre valeur. Il est essentiel de comprendre que la valeur de la statistique est diérente d'un échantillon à l'autre, c'est ce qu'on appelle les variations d'échantillonnage. Que se passe-t-il lorsque l'on tire un grand nombre d'échantillons dans les mêmes conditions ? On peut étudier la distribution de la statistique observée, on parle alors de distribution d'échantillonnage. Tirons 1000 échantillons binomiaux de taille n = 33 et de paramètres π = 0.15 (Simplement en changeant dans la procédure précédente la valeur de "Nombre d'échantillons" en 1000). On peut ensuite calculer les proportions correspondantes et réaliser un histogramme (cf gure 5.2). La gure 5.2 montre 1. que la distribution d'échantillonnage de la proportion observée p est centrée autour de la véritable valeur du paramètre π . En moyenne la proportion d'un échantillon redonne la probabilité de succès. La théorie des probabilités prouve facilement cette observation. 2. que l'histogramme a l'allure d'une densité normale. On démontre également que l'écart-type de la distribution q l'on peut calculer q π(1−π) 0.15(1−0.15) d'échantillonnage qui est de soit = 0.062. On appelle n 33 cette valeur erreur standard de la proportion (SEP). On peut remarquer au dénominateur de la formule de cette erreur standard que la taille de l'échantillon apparaît. Plus l'échantillon est grand, plus la statistique issue de l'échantillon sera proche de la valeur du paramètre. Or, comme nous le verrons dans le prochain chapitre, pour une loi normale, la probabilité que sa valeur observée soit située à moins de deux écarts-types de son espérance est proche de 95%. Nous avions, en répétant des simulations 0 1 2 3 4 5 6 5.5. MODÈLE PROBABILISTE BINOMIAL ET DISTRIBUTION D'ÉCHANTILLONNAGE D'UNE PROPORTIO 0.0 0.1 0.2 0.3 Proportion 5.2 Histogramme de la distribution d'échantillonnage (1000 tirages) d'une proportion observée sur une loi binomiale de paramètre n = 33 et π = 0.15. Une courbe rouge lissée dite estimateur de densité a été ajoutée an de mieux montrer la distribution Fig. 0.4 42CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION identiques 95% de chances que la valeur observée soit située entre 00.15−2×0.062 et 0.15 + 2 × 0.062, soit 3 % et 27 %. 5.6 Intervalle de conance "d'une proportion" Dans le contexte probabiliste ci-dessus, nous connaissions π , le paramètre, et nous étudiions comment évoluait la statistique p. En réalité, c'est le contraire qui se passe : nous connaissons une seule valeur de p et nous souhaitons inférer la valeur de π . La théorie des probabilités nous a appris qu'il y a 95% de chance que la statistique soit située à moins de deux écarts-types du paramètres. Ce qui revient à dire qu'il y a aussi 95% de chances que le paramètre se trouve à deux écarts-types de la statistique ! Il n'y a qu'un petit problème . q . .on ne connaît pas la valeur de l'écart-type car π(1−π) ) ! On remplacera dans cette formule elle dépend du paramètre (c'est n le paramètre π par la valeur observée de la statistique p, et heureusement on peut prouver que cette approximation marche plutôt bien lorsque l'échantillon atteint une taille raisonnable ! Dénition 52 L'intervalle au niveau de conance N C = 95 % d'une probabin et π est donné par les lité de succès dans un contexte binomiale de paramètre quantités taille 4 q p ± 2 p(1−p) n où p est la proportion observée dans l'échantillon de n. Avec les valeurs issues de la simulation de ma machine (y = 3 et n = 33), l'intervalle de conance s'étend donc de r 3 3 3 −2× (1 − )/33 = 0% 33 33 33 à 3 −2× 33 r 3 3 (1 − )/33 = 19%. 33 33 La valeur du paramètre (π = 0.15) est bien dans ce cas compris dans l'intervalle de conance. Il faut bien comprendre que le contraire ne se produit qu'une fois sur 20. Remarque 53 Il est dicile de comprendre ce qu'est et ce que n'est pas un intervalle de conance ! Un intervalle de conance (à 95%) est une formule mathématique qui , si on l'applique de nombreuses fois, marchera 95% du temps c'est-à-dire contiendra la vraie valeur du paramètre. Un intervalle de conance n'est pas un intervalle qui a une probabilité de 95% de contenir le paramètre. Il le contient ou ne le contient pas, c'est tout. 4 Cette notation désigne les quantités p − 2 q p(1−p) n q et p + 2 p(1−p) n . 5.7. EXERCICES 43 Un intervalle de conance n'est pas un intervalle qui contiendra 95% des proportions dans des échantillonnages similaires. On peut souhaiter modier le niveau de conance. La formule de l'intervalle devient alors : Dénition 54 L'intervalle au niveau de conance NC d'une probabilité de suc- q p ± z p(1−p) où p n n et où z , le coecient cès dans un contexte binomial est donné par les quantités est la proportion observée dans l'échantillon de taille multiplicateur, est donné par la loi normale Remarque 55 5. 6 de cette formule en tapant On obtiendra un résultat proche prop.test(x=3,n=33,correct=F, conf.level=0.95) dans la fenêtre de script la commande : et en soumettant. En l'espèce, l'intervalle de conance à N C = 0.95 obtenu s'étend de 0.031 à 0.236. Il contient la valeur du paramètre. 5.7 Exercices Exercice 56 Quelle représentation de l'enseignant d'éducation physique et spor- tive (EPS) ont ses collègues d'autres disciplines ? Trois cent trente et un professeurs de collèges et lycées ont accepté de répondre à un questionnaire consacré à ce thème. À part quinze d'entre eux, ils se sont prononcés sur la question : comparativement aux autres enseignants, l'enseignant d'EPS a une charge de travail : moins importante (121 réponses), équivalente (185) ou plus importante (10) ? Ici, il n'y a pas véritablement une population clairement dénie, sinon une hypothétique population d'enseignants dont une partie pense que... On la remplace par un modèle binomial. Nous allons calculer un intervalle de conance concernant la probabilité qu'un enseignant estime que la charge de travail de l'enseignant d'EPS est moindre. La proportion observée dans l'échantillon est de p= 121 = 0,383. 316 Calculer un intervalle de conance au niveau NC=0.95 de la probabilité. au niveau de conance NC=0.90 Supposons que la proportion observée reste la même mais que la taille de l'échantillon soit de n = 50. Calculer un intervalle de conance de la probabilité au niveau NC=0.95. 5 Voir dans la section suivante 6 pas si proche, car ici nous sommes dans une situation mauvaise pour les approximations qui est que (1) la probabilité de succès est plutôt faible et (2) la taille de l'échantillon l'est aussi. 44CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION Et si la taille de l'échantillon est de Remarque 57 n = 5000 ? La taille de l'intervalle de conance d'une proportion varie en fonction inverse de (la racine carrée de) la taille de l'échantillon. Exercice 58 Un questionnaire envoyé par la Caisse Nationale d'Assurance Ma- ladie à un échantillon représentatif de la population française visait à connaître les risques sportifs. Sur 7408 accidents déclarés, 1037 sont le fait de la pratique sportive. Calculer le pourcentage que constituent les accidents sportifs. Calculer un intervalle de conance au niveau N C = 95 % de cette pro- portion ? Que pensez-vous de la précision des résultats ? À quoi est-elle due ? Exercice 59 On s'intéresse à l'expérience aléatoire jeter trente fois une pièce de monnaie où l'on note le nombre de face (qui est considéré comme un succès). Quelle est la valeur du paramètre dans cette expérience ? J'ai obtenu 18 fois face, soit p = 60 %. Calculer l'erreur standard corres- pondant à cette proportion. Quelle est la valeur du coecient multiplicateur z pour un niveau de conance N C = 95 % ? Calculer l'intervalle de conance correspondant. Contient-il la valeur du paramètre ? Simuler cette expérience à l'aide du logiciel Rcmdr. Quelle proportion trouvez-vous ? Calculer un intervalle de conance à il la valeur du paramètre ? N C = 95 %. Comprend- Chapitre 6 Généraliser les résultats obtenus avec une moyenne 6.1 La lecture du jour : Greeneld et al. [8] Cet article de vulgarisation rappelle les défauts de la procédure inférentielle la plus classique : les tests d'hypothèses. Il présente la logique de construction des intervalles de conance et en quoi ils produisent une information essentielle : une mesure de la taille de l'eet qu'étudie le chercheur et de l'incertitude qui entoure cette mesure. Des exemples d'utilisation sont présentés dans le cadre de la médecine du sport. 6.2 La situation : Quelle est la VO2max des enfants ? Sundberg étudie la VO2 max d'une importante population d'enfants (8-15 ans). La moyenne de ces valeurs est M = 55.4 (et l'écart-type SD = 7.7). L'histogramme de ces VO2 max a une allure de courbe en cloche. Contrairement au chapitre précédent, les valeurs de VO2 max ne sont pas uniquement des valeurs entières (1, 2, 3...). Toutes les valeurs peuvent être prises (sur un certain intervalle). On dit alors que cette mesure est réelle ou continue. An de généraliser le résultat obtenu sur cet échantillon pour la moyenne à une population générale, nous avons besoin d'un modèle probabiliste : la loi normale est le modèle le plus classique pour les variables aléatoires réelles. 45 46CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE 6.3 Une variable aléatoire réelle particulièrement utile : Le modèle probabiliste normal 6.3.1 Les intervalles : des événements particuliers Dénition 60 Lorsqu'une variable aléatoire peut prendre toutes les valeurs au sein d'un intervalle, on dit qu'elle est réelle. Pour les variables aléatoires réelles, les probabilités sont dénies sur des intervalles par l'intermédiaire d'une fonction de densité. La probabilité d'un intervalle s'identie en eet à la surface qui lui correspond sous la fonction de densité. La gure 6.1 montre une densité de probabilité où les valeurs sont concentrées autour de 0, rarement supérieures à 2 en valeur absolue et symétrique : on a autant de chance de voir des valeurs positives que négatives. La probabilité qu'une valeur issue de cette loi soit située dans l'intervalle (0.5,2) est donnée par la surface en rouge (l'aire totale sous la courbe est de 1). Les propriétés habituelles des probabilités des variables aléatoires entières s'étendent aux variables réelles (inférieure à 1, somme unitaire, addition des événements disjoints). 6.3.2 Le modèle probabiliste normal "standard" Dénition 61 La fonction de densité du modèle probabiliste normal (cf gure 2 f (z) = √12π exp(− z2 ) Son espérance mathématique est nulle et sa variance est égale à 1. 6.1) standard Z est Cette fonction de densité est symétrique, elle atteint son maximum en zéro et est pratiquement nulle au delà de trois (en valeur absolue). Pour obtenir l'allure de cette fonction de densité, choisir le menu déroulant "Distributions", puis "Distributions continues" puis "Distribution normale" puis "Graphe de la distribution normale". Il faut choisir dans la fenêtre de dialogue les valeurs par défaut pour mu = 0 et sigma = 1. Attention à ne pas confondre densité et probabilité, on obtient les probabilités en intégrant la fonction de densité. Les probabilités se calculent à l'aide du menu déroulant "Distributions", puis "Distributions continues" puis "Distribution normale" puis "Probabilités normales". On peut alors calculée l'aire, à gauche ou à droite, sous la courbe de densité pour n'importe quelle valeur (appelée quantile ). On obtient ainsi P r(Z < −0.5) = 0.6914625 et P r(Z > 0.75) = 0.2266274. Exercice 62 Pour la loi normale standard Z, calculer la probabilité correspondant aux intervalles suivants : −0.5), P r(Z < 4.5), P r(Z > 1.25), P r(Z > −2), puis en procédant en deux temps, P r(1.25 < Z < 1.5) 1.4). et P r(Z < P r(−0.65 < Z < 0.2 0.0 0.1 dnorm(y) 0.3 0.4 6.3. UNE VARIABLE ALÉATOIRE RÉELLE PARTICULIÈREMENT UTILE : LE MODÈLE PROBABILISTE NO −3 −2 −1 0 1 2 y 6.1 L'aire indiquée correspond à la probabilité de l'intervalle (0.5,2) pour la loi normale standard Fig. 3 48CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE 6.3.3 La loi normale Pour avoir une famille de modèles relativement souples et utiles en pratique, il faut que la loi de probabilité puisse avoir n'importe quelle espérance et variance. Par exemple, pour modéliser les VO2 max de Sundberg, il faudrait que nous ayons quelque chose proche de µ = 55 et σ = 8. On peut généraliser en ce sens la loi normale standard. Dénition 63 Par la simple transformation Y = σZ +µ on peut, à partir de la loi normale standard Z, générer des lois de probabilités Y de même forme mais 2 2 d'espérance mathématique µ et de variance σ . On note une telle loi N(µ,σ ). Pour calculer la probabilité d'un intervalle (a,b) avec la loi normale N(µ,σ 2 ), b−µ on calcule en fait celle de l'intervalle ( a−µ σ , σ ) à l'aide de la loi normale standard Z. Remarque 64 leurs de mu et Il s'agit avec le logiciel Rcmdr de simplement modier les va- sigma dans les fenêtres de dialogue. Calculons pour la loi N(µ = 55.4,σ = 7.7) qui est supposée modéliser les VO2 max de Sundberg, la probabilité qu'un enfant est une VO2 max plus grande que 60. On trouve P r(Y > 60) = 0.275. Exercice 65 d'écart-type La VO2 max suit donc la loi normale d'espérance σ = 7 ,7 µ = 55,4 et pour des enfants "normaux". Quelle est la probabilité qu'un enfant de cet âge ait une VO2 max supérieure à 70 ? Inférieure à 50 ? Douze enfants aveugles ont également été évalués. La moyenne observée n'est alors que de 45.3. Quelle est la probabilité qu'un enfant voyant pré- sente une VO2 max inférieure à cette valeur ? Exercice 66 Soit Y Calculer les probabilités que (1) Exercice 67 = 12,σ 2 = 4). 11 < Y < 13,5. une variable aléatoire de loi normale N(µ Y < 15, (2) Y > 10,5 et (3) Comment établir des limites concernant le taux d'hématocrites (volume total des globules rouges par rapport au sang) ? O'toole et al. se sont intéressés à une population de triathlètes et ont établi que les taux observés avant une course chez ces hommes suivent assez dèlement une loi normale d'espérance µ = 43.2 (%) et d'écart-type σ = 2.9. Quelle est la probabilité d'observer dans ce contexte un triathlète dont le taux dépasse 45 % ? Dont le taux dépasse 50 % ? Les auteurs suggèrent d'employer une valeur de détection de 52 % car elle est située à trois écarts-types au dessus de la moyenne. Qu'en pensez-vous ? Remarque 68 Lorsque le nombre de répétitions est assez grand, on peut em- ployer la loi normale pour approximer certaines probabilités binomiales. Lorsqu'on s'intéresse à des mesures numériques réelles, on calcule le plus souvent la moyenne de l'échantillon, et on aimerait avoir une idée de sa variation d'un échantillon à l'autre. 6.4. LA DISTRIBUTION D'ÉCHANTILLONNAGE D'UNE MOYENNE 49 6.4 La distribution d'échantillonnage d'une moyenne An de dénir un intervalle de conance dans ce contexte, on considère à nouveau que les données ont été produites par un modèle probabiliste, la loi normale s'imposant alors naturellement. L'espérance mathématique µ de cette loi étant inconnue1 , l'objectif sera de la situer par un encadrement. Nous allons supposer que les données sont générées par un modèle normal d'espérance µ = 15 et de variance σ = 3. Commençons par générer un échantillon de 20 valeurs issues de cette loi grâce à au logiciel Rcmdr. Il faut choisir le menu déroulant "Distributions", puis "Distributions continues" puis "Distribution normale" puis "Echantillon d'une distribution normale". Dans la fenêtre de dialogue qui s'ouvre il faut indiquer pour "mu" :15, pour "sigma" : 3, pour "Nombre d'échantillons" : 1 et pour "Nombre d'observations" : 20. Il faut également cocher dans la rubrique "Ajouter au jeu de données" les cases moyennes et écarts-types. Il se crée alors un tableau à une ligne et 22 colonnes, les deux dernières indiquant pour ma machine une moyenne de 15.47092 (et incidemment un écart-type de 2.434574). Comme précédemment nous allons considérer que cet échantillon est un parmi d'autres. Exercice 69 Générer 1000 échantillons semblables au précédent et représenter par un histogramme la distribution d'échantillonnage de la moyenne. Calculer la moyenne de ces moyennes et l'écart-type de ces moyennes. La distribution d'échantillonnage obtenue (cf gure 6.2) présente les caractéristiques suivantes : elle semble suivre la loi normale, elle est centrée sur le paramètre µ, l'espérance mathématique (ici 15), son écart-type est en relation avec l'écart-type σ de la distribution et la taille de l'échantillon n. Plus précisément on démontre qu'il est exactement de √σn soit à peu près 0.671. L'écart-type de la distribution d'échantillonnage s'appelle l'erreur standard de la moyenne (SEM). L'écart-type initial σ est pour l'heure inconnu. On l'estimera par l'écart-type issu de l'échantillon SD. Dénition 70 On estime l' erreur standard de la moyenne2 par SD SEM = √ . n Exercice 71 Du fait de leur handicap, les aveugles n'ont-ils pas une pratique physique moindre ? Quelles sont leurs capacités physiques par rapport à leurs pairs voyants ? Connaître ces limites peut permettre de programmer des interventions plus ecaces. L'étude de Sundberg concerne douze sujets masculins âgés de huit à quatorze ans qui montrent une VO2 max moyenne de ml/kg/min avec un écart-type de SD = 8.9 Estimer l'erreur standard de la moyenne (SEM). 1 Ainsi que l'écart-type σ 2 Standard error of the mean. M = 45.3 (estimation faite sur ergo-cycle). 50CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE 150 0 50 100 Frequency 200 250 Histogram of dist.ech.moy 12 13 14 15 16 dist.ech.moy 6.2 Histogramme de la distribution d'échantillonnage (1000 tirages) d'une moyenne observée sur des échantillons de taille 20 issus d'une loi normale de paramètre µ = 15 et σ = 3. Fig. 17 6.5. L'INTERVALLE DE CONFIANCE "D'UNE MOYENNE" 51 6.5 L'intervalle de conance "d'une moyenne" Sachant que la distribution d'échantillonnage suit la loi normale et donc que la valeur observée de la statistique (la moyenne) à 95% de chance d'être située à moins de deux erreurs standards du paramètre (l'espérance mathématique), on peut comme précédemment "retourner" l'argument et donner la dénition suivante. Dénition 72 L'intervalle de conance au niveau 95 % d'une espérance maSD √ Y où n est la taille de n l'échantillon, MY est sa moyenne et SDY son écart-type. thématique est donné par les quantités MY ± 2 × Les quantités correspondantes pour l'exercice 71 sont donc : 8.9 45.3 − 2 × √ = 40.2 12 et 8.9 45.3 + 2 × √ = 50.4. 12 L'intervalle au niveau de conance 95 % de la VO2 max moyenne d'un handicapé visuel est de {40.2; 50.4}. Dans le même article, la VO2 max d'un groupe d'enfants du même âge est évaluée en moyenne à 55.4 ml/kg/min. On peut donc voir qu'il existe une diérence notable. 6.5.1 La loi de Student La formule de base est une approximation commode d'une formule plus précise où le coecient multiplicateur 2 sera remplacé par une valeur dite t de Student, et ce, pour deux raisons. D'une part, on peut souhaiter varier le niveau de conance. D'autre part, à cause de l'approximation de σ par SDY , la loi qui fait référence pour la distribution d'échantillonnage de la moyenne n'est nalement pas la loi normale, mais une loi un peu plus étalée qui s'appelle loi de Student. Cette loi dépend d'un paramètre qui est le degré de liberté et correspond ici à la taille de l'échantillon moins un (n − 1). Pour le problème des aveugles avec un échantillon de douze individus, on utilisera donc ddl = 12 − 1 = 11. Dénition 73 L'intervalle de conance au niveau N C d'une espérance mathé√ Y où t est le quantile d'une loi MY ± t × SD n 1−N C de Student à n − 1 degrés de liberté correspondant à la probabilité q = 1 − . 2 matique est donné par les quantités Remarque 74 La valeur de t peut être calculée en utilisant le menu dé- roulant "`Distributions", puis les options "Distributions continues","Distribution t","Quantiles t" Si on dispose des données, et pas seulement des statistiques, c'est beaucoup plus simple, il sut de choisir le menu déroulant "Statistiques", puis les options "Moyennes" et "t-test univarié". 52CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE Ainsi, pour obtenir un intervalle de conance à N C = 90 % à partir de = 0.95 l'échantillon précédent où n = 12 soit ddl = 11, on emploie q = 1− 1−0.90 2 ce qui donne t = 1.796 d'où les deux quantités 8.9 45.3 ± 1,796 × √ 12 générant l'intervalle {40.7 ; 49.9}. Exercice 75 R. ROLLIER (M2PPMR) a pris en charge l'entraînement de 39 joueurs de moins de 19 ans de l'ASVEL Rugby. Un test de vitesse (30 mètres avec deux changements de direction) a été passé par tous ces joueurs. Le temps (sec.) a été relevé et est présenté dans le chier ROLLIER.xls. Représenter graphiquement les données de temps Ces valeurs semblent-elles approximativement suivre une loi normale ? Calculer un intervalle de conance au niveau N C = 0.90 de l'espérance mathématique de cette variable. Quel peut-être le problème dans le calcul de cet intervalle ? Comment suggéreriez-vous d'améliorer cette procédure ? Exercice 76 Pour les tailles d'échantillons (n) et niveaux de conance (N C ) suivants, trouver les valeurs du coecient multiplicateur t à utiliser pour construire l'intervalle de conance de l'espérance mathématique d'une loi normale : (1) n = 25 et N C = 95 %, (2) n = 25 N C = 99 %, (4) n = 15 et N C = 98 %. Exercice 77 et N C = 90 %, (3) n = 15 et La ménarche (apparition des règles) est une date importante dans la vie de la jeune lle. Elle semble varier en fonction de la pratique sportive, une activité physique intense ayant tendance à la retarder. Dans quelle mesure est-ce vrai ? Une population de femmes africaines a été étudiée. La date de leur ménarche est obtenue, pour ces femmes âgées de 20 à 30 ans, par une technique de rappel (recoupement d'événements), généralement au mois près. Cinquante handballeuses de haut niveau, ayant commencé l'entraînement avant la ménarche ont été interrogées. Leurs déclarations présentent une moyenne de M = 15.6 années et un écart-type de SD = 1.57. Donner un intervalle de conance à N C = 95 % de l'espérance mathéma- tique de la ménarche pour cette population. 214 femmes sédentaires a été étudié, abou13.78 ans pour la ménarche. En rapprochant En outre, un groupe témoin de tissant à un âge moyen de l'intervalle de conance précédent de cette norme , que peut-on suspecter de l'inuence de l'exercice physique intense ? Quelles précautions faut-il toutefois prendre dans l'énoncé de cette conclusion ? 6.6. POUR ALLER PLUS LOIN 53 6.6 Pour aller plus loin 6.6.1 Quelques problèmes à propos de l'utilisation des intervalles de conance Un certain nombre d'hypothèses sont sous-jacentes à l'utilisation valide des intervalles de conance. La première est que nous avons aaire à un échantillon aléatoire de données. Ceci ne peut être le cas que s'il y a eu une procédure de tirage au sort, soit par tirage aléatoire dans un contexte de sondage, soit par randomisation dans un cadre expérimentale. Dans toute autre cas de gure, rien ne garantit la conance que l'on peut accorder à l'intervalle. A la base des calculs et du comportement de la distribution d'échantillonnage, il y a le modèle statistique. S'il ne correspond pas à la situation concrète, parce que les données sont dissymétriques par exemple pour une loi normale, le calcul de l'IC sera faux. En présence d'une (ou de plusieurs !) données extrêmes, le calcul de l'IC qui est basé sur deux statistiques peu robustes est lui aussi faux. lorsque l'on calcule sur de nombreux paramètres ou groupes diérents des IC, il ne faut pas oublier que la formule ne marche que dans 95% des cas. Par conséquent, sur 20 caculs, il ne serait pas étonnant de trouver des résultats "faux". C'est un problème qu'on appelle souvent problème de multiplicité des tests. 6.6.2 Les méta-analyses L'un des objectifs de la recherche scientique est d'obtenir que les résultats menés par diérents laboratoires se cumulent an de dégager ce qui est l'état de la connaissance sur un problème. Ainsi, si diérents laboratoires mènent des mesures de VO2 max sur des enfants dans diérentes conditions, il est bon de pouvoir repérer ce qui est commun dans tous ces travaux. C'est là qu'interviennent les méta-analyses. Il s'agit de regrouper les informations quantitatives des diérentes études à une même échelle. Les intervalles de conance sont très intéressants pour cela car ils permettent, par exemple sur un même graphique de superposer ces intervalles et de les comparer. La gure 6.3 montre avec les données des smarties du chapitre précédent quel peut être le type de résultat obtenu. 1 2 3 4 5 6 7 8 9 Echantillons 11 13 15 54CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE 0.0 0.2 0.4 0.6 0.8 Fréquences smarties rouges 6.3 Intervalles de conance de la probabilité pour un smarties d'être de couleur rouge suivant les proportions obtenues par 15 étudiants. Fig. 1.0 Chapitre 7 Le test d'hypothèses La méthode inférentielle la plus utilisée est la technique des tests d'hypothèses. Elle est cependant décriée par nombre de méthodologistes pour sa complexité et le fait qu'elle apporte au nal moins d'information que les intervalles de conance. Cependant, malgré ses défauts, comme elle est massivement utilisée dans la publication d'études, il convient de la connaître. 7.1 La lecture du jour : Bonsangue [9] Cet article pédagogique permet de bien comprendre la structure générale des tests d'hypothèses, et la possibilité de prendre de bonnes ou de mauvaises décisions. Il y manque évidemment la quantication de toutes ces décisions et risques, ce à quoi nous allons consacrer ce chapitre. 7.2 La situation : une norme à tester Filaire et al. [?] ont mesuré pour sept jeunes gymnastes féminines de niveau national les concentrations en Ostéocalcine, marqueur du métabolisme osseux, et ont obtenu une moyenne de 38.8±16.9 (ng/mL). Les auteurs donnent également comme norme tirée de la littérature une valeur moyenne de 22.5. Nous allons employer un test d'hypothèses an de voir si cet échantillon (censé représenter les gymnastes de haut niveau en général) se conforme à la norme. 7.3 Le modèle et les hypothèses Le modèle est donc celui de la loi normale pour de telles données numériques. On va donc supposer que la mesure en ostéocalcine du groupe peut être modélisée par une loi normale N (µ, σ). Ce qui nous intéresse est de poser des questions concernant le paramètre µ. En particulier la question de référence est la comparaison à la norme, qu'on 55 56 CHAPITRE 7. LE TEST D'HYPOTHÈSES va appeler hypothèse nulle : H0 : µ = 22.5. On va confronter cette hypothèse à une hypothèse alternative, il y a ici trois choix possibles : Ha(1) : µ > 22.5, Ha(2) : µ22.5 ou Ha(3) : µ 6= 22.5. Remarque 78 Dans un test d'hypothèse, les formes d'hypothèses alternative sont choisies a priori, sans référence au jeu de données sur la base de nos connaissances préalables. Nous allons ici privilégier l'hypothèse alternative Ha(1) : µ > 22.5 car on s'attendait à une élévation du niveau de ce marqueur. Dénition 79 Pour réaliser un test sur un paramètre du modèle, il faut dé- nir deux hypothèses : l'hypothèse alternative correspond à ce que l'on souhaite démontrer et l'hypothèse nulle à une hypothèse de référence. Nous allons dorénavant considérer que l'hypothèse nulle est vraie et donc que le modèle statistique est à présent : Y ∼ N (µ = 22.5, σ). Dans ce cas, nous savons qu'un échantillon tiré d'une telle loi aura un comportement prévisible (au moins sur le long terme) et qu'en particulier la moyenne de l'échantillon MY va suivre une loi normale N (µ = 22.5, √σn . Remarque 80 Ce qui est particulier dans la démarche de test c'est qu'il s'agit d'un raisonnement par l'absurde : on va se placer dans la situation de référence (l'hypothèse nulle) an d'essayer de démontrer qu'elle est fausse et donc que l'alternative (qui nous intéresse) est vraie. On va s'intéresser à la statistique suivante qui mesure l'écart entre la moyenne réellement observée et ce que doit être le comportement de la moyenne dans le contexte de l'hypothèse nulle1 : Z= MY − 22.5 √ σ/ n qui est alors censée suivre une loi normale standard. Le problème est que la valeur de σ est inconnue, on va donc la remplacer par la valeur de l'échantillon c'est-à-dire SDY ce qui a pour eet que la statistique : T = MY − 22.5 √ SDY / n suit alors une loi de Student à n − 1 degrés de liberté. Or sur l'échantillon, on observe n = 7, MY = 38.8 et SDY = 16.9. Ceci conduit à t = 2.55. Est-ce que cette valeur est ordinaire pour une loi de Student à 7 − 1 = 6 degrés de liberté (ce qui conduit à ne pas douter de l'hypothèse nulle) ou est-elle très étonnante (ce qui conduit éventuellement à la remettre en cause) ? Pour le savoir, représentons la loi de Student et la valeur observée sur un graphique (cf gure 7.1). 1 On peut remarquer la forme très proche de cette statistique, à un coecient près qui dépend de la taille de l'échantillon, avec la taille d'eet, ici ES=0.96, nous avons aaire à un eet fort 57 0.3 7.3. LE MODÈLE ET LES HYPOTHÈSES 0.2 0.1 densité t observé −3 −2 −1 0 1 2 t 7.1 Densité de la statistique de testt lorsque l'hypothèse nulle (µ = 22.5) est vraie : loi de Student à 6 ddl. L'emplacement de la valeur de la statistique observée sur l'échantillon est indiqué par une èche et semble peu compatible avec cette distribution. Fig. 3 58 CHAPITRE 7. LE TEST D'HYPOTHÈSES On constate que cette valeur est assez surprenante. Pour quantier la compatibilité de cette valeur avec l'hypothèse de référence, on va calculer la probabilité de voir apparaître des valeurs au moins aussi surprenante que celle-ci, c'est-à-dire la probabilité de voir apparaître des valeurs plus petites que la valeur observée. Il faut donc calculer la probabilité pour une loi T de Student à 6 degré de liberté que T > 2.55. On trouve p = 0.022. Cette quantité qu'on appelle probabilité critique sera la mesure que nous emploierons an de décider quelle hypothèse est la plus vraisemblable. Puisqu'elle est ici faible on décidera que l'hypothèse alternative est préférable et donc que les jeunes gymnastes ont en moyenne une mesure d'ostéocalcine plus élevée. Dénition 81 La probabilité critique mesure la compatibilité des données avec l'hypothèse nulle. Son calcul dépend de l'hypothèse alternative choisie. Plus elle est faible, plus on aura tendance à rejeter cette hypothèse au prot de l'hypothèse alternative. Le seuil de décision conventionnel est placé à Remarque 82 5%. Lorsqu'on dispose des données, les calculs précédents se réa- lisent automatiquement en employant le menu déroulant "Statistiques", et les options "Moyennes" et "t-test univarié". Le chier OSTEOCALCINE.xls contient 2 les valeurs des gymnastes , reproduisez les résultats du test d'hypothèses. Résumé 83 Pour réaliser un test statistique, il faut identier le modèle statistique qui correspond à la situation, dénir les deux hypothèses, nulle et alternative, portant sur les paramètres du modèle, calculer une statistique sur l'échantillon dont on connaît le comportement si l'hypothèse nulle est vraie et utiliser cette statistique pour calculer une probabilité critique qui mesure la compatibilité entre les données (résumée par la statistique calculée) et l'hypothèse nulle. Nous présenterons alors chaque nouveau test sous le format suivant qui reprend la démarche du test t univarié que nous venons de présenter : Dénition 84 Pour tester dans une population normale d'espérance mathé- µ et d'écart-type σ , l'hypothèse que l'espérance est égale à une norme : (H0 : µ = norme), on utilise le test de Student pour un échantillon. On calcule pour la moyenne MY et l'écart-type SDY observés sur l'échantillons de taille n matique puis le score normalisé suivant qui servira de statistique de test : t= MY − norme √ . SDY / n La probabilité critique de l'hypothèse nulle Ha(1) : µY > norme est égale à la probabilité n − 1 degrés de liberté soit plus élevée que t. contre l'hypothèse de Student à que la loi 2 Ce ne sont pas les véritables valeurs dont on ne dispose pas dans l'article mais des valeurs virtuelles correspondant aux mêmes moyenne et écart-type 7.4. LA PUISSANCE D'UN TEST D'HYPOTHÈSE Ha(2) : µY < même loi soit plus petite que t. contre l'hypothèse norme 59 est égale à la probabilité que la Ha(3) : µY 6= norme est égale à la probabilité que cette loi soit plus éloignée de zéro que t. contre l'hypothèse Exercice 85 Reprendre les données du chier DAUCHEZ.xls (cf. Exercice 25) sur un groupe de joueurs et joueuses de tennis et leur résultat au test navette. Tester ce groupe par rapport à la norme fournie par la FFT de 12.75 pour ce test. Exercice 86 Reprendre les données du chier ALIMENTATION.xls (cf. Exer- cice 27) concernant les jeunes lles et les désordres alimentaires. Tester si l'estime de soi (variable ES) des jeunes lles non sportives peut être considérée 3 comme égale à la norme de 32.88 . 7.4 La puissance d'un test d'hypothèse AInsi un test d'hyptohèse est une procédure de décision entre deux hypothèses : H0 et Ha . Nous avons vu que le principe repose sur l'idée que l'hypothèse nulle est vraie, et qu'on limite la probabilité de se tromper dans ce cas à α% qui est le risque de première espèce. Cependant, l'hypothèse que nous voulons démontrer est l'hypothèse alternative, il serait également intéressant de savoir dans ce cadre là quelle est alors la probabilité de se tromper, ou mieux, d'avoir raison ! Dénition 87 La puissance d'un test est la probabilité de démontrer l'hypothèse alternative lorsqu'elle est vraie. Elle indique donc notre capacité à prouver ce qui nous intéresse. On la note 1−β Toutefois, an de pouvoir mener le calcul, il faut préciser cette hypothèse alternative en disant exactement dans quelle mesure on s'éloigne de l'hypothèse nulle. C'est le rôle de la taille d'eet prospective. Dénition 88 La taille d'eet prospective est une mesure a priori de la distance à l'hypothèse nulle. Pour le test de ce chapitre elle est égale à δ= µ − norme . σ On voit bien que la taille d'eet est nulle pour la valeur du paramètre correspondant à l'hypothèse nulle. Comment quantier cette valeur a priori : par connaissance d'expert, grâce à la bibliographie, par le biais d'une étude pilote. Reprenons l'exemple de l'Ostéocalcine et imaginons que la lecture de la littérature, outre une norme moyenne de 22.5 donne également une valeur d'écarttype de 20. A partir de là, on peut imaginer ce qui se passe dans diérents 3 La procédure de sélection d'un groupe d'unités statistiques est expliquée dans l'exercice originel 60 CHAPITRE 7. LE TEST D'HYPOTHÈSES scénarios : si µ = 30 pour les gymnastes, on a δ = (30 − 22.5)/20 = 0.375, un eet classé entre faible et moyen par Cohen. Si µ = 40, proche de ce qui a été observé en réalité, on a δ = 0.875 un eet fort. Une fois la taille d'eet prospective dénie, la taille d'échantillon xée, le risque de première espèce déterminé (usuellement à 5%), la puissance peut être calculée. Le package pwr permet de calculer les puissances statistiques dans les situations les plus courantes en se basant sur les notations et conventions de l'article de Cohen [3]. La fonction pwr.t.test est celle qui correspond au test de comparaison d'une moyenne à une norme. En utilisant les deux tailles d'eet prospective proposées : δ1 = 0.375 et δ2 = 0.875, un taille d'échantillon de n = 7, un risque de première espèce classique à α = 0.05 dans un test unilatéral (nous savons que les valeurs des gymnastes seront plus élevées), nous obtenons comme puissance : 1 − β1 = 0.223 et 1 − β2 = 0.665. require(pwr) pwr.t.test(n=7,d=0.875,sig.level = 0.05, type = "one.sample",alternative ="greater") Ceci signie que pour repérer un eet classé comme fort δ2 = 0.875, alors qu'il existe, nous n'avons nalement que deux chances sur trois d'y parvenir (1 − β2 = 0.665) ! Remarquons ce qu'il se passe si nous décidons de réaliser l'expérience avec un nombre plus grand de gymnastes n = 20 mais la même taille d'eet, la puissance est alors de (1 − β = 0.983), nous sommes presque certains de démontrer ce type de résultat. Remarque 89 La puissance d'un test augmente avec la taille d'eet prospective et la taille d'échantillon. On peut se poser la question d'une façon un peu diérente, supposons que nous soyons prudent en pensant qu'un eet moyen au moins est attendu soit δ = 0.50. On considère généralement une puissance de 1−β = 0.80 comme satisfaisante, il est alors possible de calculer (en inversant la formule de la puissance) quelle taille d'échantillon est nécessaire pour y parvenir. On obtient : n = 26. pwr.t.test(d=0.50,power=0.80,sig.level = 0.05, type = "one.sample",alternative ="greater") Remarque 90 Les calculs de puissance permettent de mieux saisir ce qui se passe dans un test d'hypothèses, en particulier pourquoi la taille d'eet prospective et la taille d'échantillon doivent être considérées simultanément si l'on souhaite obtenir des résultats signicatifs. Chapitre 8 Etude inférentielle de mesures numériques répétées (2 conditions) 8.1 La lecture du jour : Cohen [3] L'article de Cohen [3] constitue une mine d'information en ce qui concerne les tests statistiques. Pour les situations les plus courantes, il donne les tailles d'eet correspondantes ainsi que des mesures qualitatives conventionnelles. Il présente également de façon très clair les relations entre le risque de première espèce, la puissance, la taille d'eet et la taille d 'échantillon dans un test d'hypothèse. Enn, il présente les tailles d'échantillon nécessaire an d'obtenir une puissance satisfaisante (1 − β = 0.80) pour les trois tailles d'eet conventionnellement dénies. 8.2 La situation : des données numériques appariées Haguenauer et al. [18] étudie la diérence d'ecacité entre deux positions de la jambe de retour dans le patinage artistique : la position en exion et la position en extension. La vitesse (m/s) atteinte sera la mesure de comparaison. Spt patineurs de niveau national ont participé à cette étude, ce qui est évidemment bien peu. An d'optimiser cette expérimentation, un dispositif apparié a été employé : chaque patineur a été observé dans les deux conditions. Les données sont disponibles dans le chier PATINEURS.xls comportant dans deux colonnes : extension et exion les deux mesures prises sur chaque sujet. 61 62CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI 8.3 Compréhension de la diérence entre échantillons appariés (mesures répétées ou blocs) et échantillons indépendants De telles mesures sont dites mesures répétées. Ceci signie que sur les mêmes individus plusieurs mesures sont eectuées soit à des dates diérentes (mesures longitudinales ) soit dans des conditions diérentes. Il se peut aussi que des individus diérents soient regroupés deux par deux sur des caractéristiques telles que le sexe, l'âge, les performances passées et que l'on souhaite comparer leurs performances dans diérentes conditions. On parle alors de dispositifs en blocs. Les deux situations (deux mesures sur les mêmes individus ou même mesure sur deux individus diérents) sont similaires, on parle de mesures appariées. On va prendre en compte une proximité attendue entre les résultats de chaque paire an d'obtenir des résultats plus précis. 8.4 Graphiques pour échantillons appariés Le premier graphique réalisable avec Rcmdr est le nuage de points. Il s'agit de représenter les deux mesures appariés dans un plan cartésien. An de rendre ce graphique plus lisible, il vaut mieux (1) employer la même échelle pour X et pour Y et (2) rajouter la première bissectrice dans le graphique. 8.4.1 Le graphe parallèle Toutefois, le graphique le plus ecace est sans doute le graphe parallèle. Ce graphe n'est malheureusement pas inclus dans Rcmdr et demande une programmation. En revanche, j'ai créé une fonction R qui se nomme parallelplot dont on peut disposer dans Rcmdr avec les étapes suivantes : 1. placer dans le répertoire courant le chier SC2007.R 2. Dans la fenêtre Rgui, choisir le menu déroulant "Fichier" et l'option "Sourcer du code R". Utiliser alors la fenêtre de dialogue pour charger le chier SC2007.R. 3. Revenir dans la fenêtre de script du Rcmdr, il est possible d'utiliser la fonction parallelplot. Pour obtenir la gure 8.1, on peut ainsi taper la commande : parallelplot(patineurs$extension,patineurs$exion, glab=c("Extension","Flexion"),ylab="Vitesse (m/s)") Il est très clair que pour toutes les patineurs sauf un (ligne en rouge), l'écart a diminué, c'est-à-dire que la vitesse est plus faible en exion qu'en extension. 2.1 8.4. GRAPHIQUES POUR ÉCHANTILLONS APPARIÉS 63 ● ● ● ● ● ● ● ● 1.8 1.9 ● ● ● ● 1.6 1.7 Vitesse (m/s) 2.0 ● ● Extension Flexion Fig. 8.1 Graphe parallèle des vitesses en extension et en exion pou l'étude des patineurs 64CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI 8.4.2 Le graphe des diérences Une autre approche graphique va être utilisable qui va nous conduire directement aux techniques statistiques inférentielles que nous utiliserons. Il s'agit de s'intéresser aux diérences entre les deux mesures, si ces diérences sont globalement positives, il y a augmentation de la vitesse d'une condition à l'autre, si elles sont négatives il y a bien sûr diminution. Pour réaliser cette étude, il faut employer dans Rcmdr le menu déroulant "Données", l'option "Gérer les variables dans le jeu de données actif", "Calculer une nouvelle variable". Dans la fenêtre de dialogue, employer en l'espèce comme nom de la nouvelle variable : Di et comme "Expression à calculer" : ExtensionFlexion. Tous les graphiques adaptés à l'étude d'une variable numérique sont alors envisageable, la norme à considérer étant la valeur zéro qui forme la limite entre augmentation et diminution. On peut voir dans la gure 8.2 une ligne de points avec la norme ajoutée. Il est claire que la diérence entre la valeur en extension et la valeur en exion est généralement positive, c'est-à-dire que la vitesse diminue. Exercice 91 Les valeurs de créatine-phosphokinase (CPK) ont été mesurées en deux occasions sur les avants de l'équipe de France de rugby (chier CPK.xls) par Dine [19]. Cette enzyme peut être employée comme un marqueur de la fatigue musculaire. On veut caractériser l'évolution de l'état de forme général. Réaliser un graphe adapté à l'étude de l'évolution. Qu'en concluez-vous sur l'état général ? Comment préciser les résultats ? 8.5 Statistiques et taille d'eet L'hypothèse de référence est qu'il n'y a pas de diérence entre les deux mesures (X =Extension et Y =Flexion). L'eet recherché est l'existence d'une diérence. La taille d'eet va donc être soit absolue en mesurant la diérence MX −MY entre les moyennes des deux mesures soit relative en rapportant cette diérence à un écart-type. Il y a ici deux possibilités, l'écart-type peut être soit l'écart-type des diérences SDD (D = X − Y )soit l'écart-type d'une des deux mesures, nous prendrons ici comme mesure de référence celle en extension, qui est la méthode usuelle en patinage artistique1 , c'est-à-dire SDX . Les deux tailles d'eet standardisées envisageables sont donc : dD = MX − MY SDD dX = MX − MY . SDX et 1 Il n'est pas toujours très clair de savoir quelle est la mesure de référence, dans le cadre de mesures longitudinales, on prend la mesure de début d'étude 8.5. STATISTIQUES ET TAILLE D'EFFET 0.00 0.05 65 0.10 0.15 0.20 Différences de vitesse Fig. 8.2 Ligne de points des diérences de vitesse entre la condition en extension et la condition en exion de la jambe de retour pour l'étude des patineurs 66CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI Nous préférons employer la quantité dD proposée par Cohen [3] et comparable aux tailles d'eet conventionnelles (0.20, 0.50 et 0.80). On obtient les statistiques nécessaires à ces calculs à l'aide du menu déroulant "Statistiques", l'option "Résumés", puis "Statistiques descriptives", en sélectionnant les trois variables (X =Début, Y =Fin et D=Di). Sur les données de Haguenauer, nous trouvons comme taille d'eet absolue : 1.9628571 − 1.8542857 = 0.1085714m.s−1 et comme tailles d'eet relatives : dX = (1.9628571− 1.8542857)/0.17857905 = 0.61 ou dD = (1.9628571 − 1.8542857)/0.09788234 = 1.11. Nous avons incontestablement aaire à un eet de grande taille. Exercice 92 Quelles tailles d'eet peut-on associer à l'évolution de la CPK chez les rugbymen ? 8.6 Intervalles de conance Dénition 93 L'intervalle de conance au niveau NC de la diérence entre les espérances mathématiques de deux populations appariées est donné par les σc quantités D ± t × √D où t peut être obtenu comme quantile de la loi de Student n 2 à n − 1 degrés de liberté . Pour réaliser ce calcul, utiliser le menu déroulant "Statistiques", l'option "Moyennes" puis "t-test apparié". Dans la fenêtre de dialogue, déclarer comme première variable X =Extension et seconde variable Y =Flexion. Nous obtenons ici un intervalle au niveau N C = 95% s'étendant de 0.02 à 0.20 (m.s−1 ). Exercice 94 Calculer un intervalle de conance au niveau N C = 90% de l'évo- lution de la CPK chez les rugbymen. 8.7 Test d'hypothèses Dénition 95 Deux populations sont étudiées de façon appariées. On suppose D = X − Y suit le modèle probabiliste N (µD = µX − µY , σD ). Pour tester l'hypothèse H0 : µX − µY = 0, on utilise le test t de Student apparié. On calcule à partir de la moyenne MD et de l'écart-type SDD observés sur un échantillon de diérences de taille n le T-score que la diérence entre les deux mesures normal t= MD − 0 √ . SDD / n La probabilité critique de l'hypothèse nulle Ha(1) : µX − µY > 0 est égale à la probabilité que la loi n − 1 d.d.l. soit plus élevée que t. contre l'hypothèse Ha(2) : µX − µY < 0 est égale à la probabilité que cette même loi soit plus petite que t. contre l'hypothèse de Student à 2à l'aide de la formule q = 1 − 1−N C 2 pour déterminer le quantile 8.7. TEST D'HYPOTHÈSES Ha(3) : µX − µY loi soit plus éloignée de zéro que t. contre l'hypothèse 67 6= 0 est égale à la probabilité que cette Les calculs sont réalisés de la même façon qu'avec l'intervalle de conance. Ne sachant quelle est la condition la meilleure initialement, il est logique de choisir l'hypothèse alternative Ha(3) : µX − µY 6= 0. On obtient donc t = 2.9347, 6 degrés de liberté et p = 0.02613 comme probabilité critique. La diérence est statistiquement signicative au seuil classique de 5%. Exercice 96 Tester l'évolution de la CPK chez les rugbymen. Attention à dé- nir correctement l'hypothèse alternative. Exercice 97 P. Chabaud (CRIS, université Lyon1) a mesuré le temps de ré- action de quatre groupes d'individus (handballeur, grimpeur, sprinter et non sportifs) dans cinq conditions dont une condition témoin et une condition notée "TRSP.Fixe" où l'individu était prévenu que le stimulus attendu allait venir prochainement. Nous allons limiter nos investigations à la comparaison entre la condition témoin et la condition "TRSP.Fixe". Tester si pour le groupe des non-sportifs, une diérence est observée entre ces deux conditions (sélectionner le sous-ensemble d'individus correspondant). Calculer un intervalle de conance de cette diérence, toujours pour les non-sportifs. Calculer les intervalles de conance pour les trois groupes de sportifs. Calculer une variable "di" pour l'ensemble des individus faisant la différence entre la condition témoin et la condition "TRSP.Fixe". Utiliser ensuite le menu déroulant "Graphes" et l'option "Graphe des moyennes". Sélectionner comme Facteur : Pratique, comme variable de réponse : di et comme Barre d'erreur : intervalle de conance. Que représente le graphe obtenu ? Remarque 98 Il serait intéressant de comparer les quatre groupes sur l'ensemble des cinq conditions, et ensuite de passer à des comparaisons soit entre les groupes soit entre les conditions. Il s'agit du domaine appelé en statistique analyse de mesures répétées année de master. qui sera abordé en deuxième 68CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI Chapitre 9 Etude inférentielle de comparaison de deux groupes indépendants 9.1 La lecture du jour : Diaconis & Efron [11] Cet article de vulgarisation montre le changement considérable qui s'est produit dans la science statistique avec l'avènement des micro-ordinateurs. Il est désormais possible de réaliser facilement des graphiques ou des calculs (régression multiple, analyse multivariée) impensables quelques années auparavant. Au delà de ces mises à disposition de techniques connues, des méthodes radicalement nouvelles (bootstrap, validation croisée, lissage, estimateur de densité...) ont été inventées. Elles s'aranchissement de nombreuses hypothèses qui étaient nécessaires an de pouvoir concrètement réaliser les calculs. Ces nouvelles méthodes malgré leur supériorité et leur caractère souvent intuitif sont loin d'avoir encore été diusées dans la pratique. 9.2 La situation : deux groupes indépendants de mesures numériques C. Verdot [20] étudie l'apport de l'activité physique dans des conditions carcérale. Elle compare deux groupes de détenus : un groupe (n=14) qui a été entraîné 3 fois par semaine pendant cinq mois, et un groupe de contrôle (n=11), qui est resté sédentaire. La mesure que nous retiendrons est celle du stress, évalué d'après le questionnaire PSS14. Un problème de cette étude est l'impossibilité de réaliser une randomisation des deux groupes (pour des raisons éthiques) aussi il est très important de comparer initialement les deux échantillons. 69 70CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA Le chier STRESS.xls indique pour les 25 individus la mesure de stress en début d'étude (variable PSSt0) et l'appartenance au groupe (variable groupe). 9.3 Les graphiques pour deux échantillons indépendants L'idée fondamentale est d'employer les graphiques habituels pour mesures numériques (ligne de points, histogramme, boite de dispersion, graphe quantilequantile) mais (1) en réalisant un graphe pour chaque groupe et (2) à la même échelle. Le graphique le plus classique est celui où des boites de dispersion sont comparées. Pour l'obtenir à partir de Rcmdr, choisir le menu déroulant "Graphes", l'option "Boite de dispersion". Dans la fenêtre de dialogue, indiquer le nom de la variable numérique (ici PSSt0) et cliquer sur le bouton "Graphe par groupe" pour préciser le nom de la variable d'appartenance (ici groupe). La gure 9.1 montre une diérence entre les deux équipes. Le stress est plus faible dans le groupe de contrôle (avec une médiane de 15) que dans le groupe de sportifs (environ 22), ce qui est ennuyeux car les deux groupes devraient initialement être comparables. Peut-être ont-ils choisi parce qu'il étaient plus stressés de participir à l'étude ce qui peut biaiser les résultats. Remarque 99 On obtient un graphique intéressant dit collection de lignes de points en tapant dans la fenêtre de script et en soumettant la commande suivante : stripchart(prison$PSSt0 prison$groupe,method="stack",xlab="Stress") Exercice 100 La pratique de la natation développe normalement la muscula- ture de l'épaule mais aussi sa souplesse. L'étude de Monteil et al. [23] vise à mesurer les diérences de laxité entre de nageurs (n (n = 15) = 15) et des sédentaires du même âge. Le chier NAGEURS.xls contient en particulier la exion de l'épaule droite de ces individus (variable FED en degrés) et leur statut (variable statut). Réaliser une collection de boite de dispersion de ces données. Réaliser une collection de lignes de points. Qu'observez-vous ? 9.4 Les tailles d'eet L'hypothèse de référence est qu'il n'y a pas de diérence (de moyennes) entre les mesures (X et Y )deux groupes. Pour mesurer l'éloignement à cette hypothèse, on emploiera tout naturellement comme taille d'eet absolue la diérence entre les deux moyennes observées : MX − MY . Nous obtenons pour les données de stress : 22.5 − 16.36364 = 6.13636 points de PSS, ce qui semble considérable. 71 15 0 5 10 PSSt0 20 25 30 9.4. LES TAILLES D'EFFET reference sportifs groupe 9.1 Collection de boites de dispersion pour comparer le stress du groupe de référence au groupe de sportifs Fig. 72CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA An de calculer une taille d'eet relative, il y a deux possibilités, soit utiliser l'écart-type d'un des deux groupes, celui du groupe dit de contrôle lorsqu'il existe, soit utiliser un compromis entre ces deux écarts-types qui est généralement calculé de la façon suivante : s 2 + (n − 1)SD 2 )) (nX − 1)SDX Y Y σ b= . (nX − 1) + (nY − 1) Remarque 101 An d'obtenir cet écart-type compromis, on peut soit eectuer le calcul explicitement soit utiliser l'astuce suivante : Dans le menu déroulant "Statistiques", prendre l'option "Moyennes" et "ANOVA à un facteur". La fenêtre de sortie comporte un résultat qui s'appelle "Analysis of Variance Table". La quantité à droite sur la dernière ligne de cette table (pour nos données : 65.57) est le carré de ce compromis. Il faut alors écrire dans la fenêtre de script : sqrt(65.57) et soumettre pour obtenir le résultat : Dénition 102 On appelle alors ∆ ∆= et g de Hedge : g == SD = 8.1. de Glass MX − M Y SDX MX − MY . σ b Nous obtenons pour les données de Verdot : ∆ = (22.5−16.36364)/10.744978 = 0.57 (avec l'écart-type de l'équipe 1) et g = (22.5 − 16.36364)/8.1 = 0.76. Ces valeurs sont comparables aux tailles d'eet conventionnelles (0.20, 0.50 et 0.80). Nous obtenons donc un eet de moyen à fort. Exercice 103 Calculer pour les données de Monteil et al., la taille d'eet ab- solue, ainsi que ∆ et g. Comparer ces tailles d'eet relatives aux tailles conven- tionnelles. 9.5 Intervalle de conance Le modèle statistique consiste en deux populations suivant des lois normales N (µX , σ) et N (µY , σ). Notons que les écarts-types des populations sont censées être les mêmes, si ce n'est pas le cas, il faut employer un autre modèle statistique et donc une autre méthode pour calculer les intervalles de conance et les test qu'on appelle méthode de Welch1 . Les deux échantillons sont indépendants. Dénition 104 L'intervalle de conance au niveau NC de la diérence entre les espérances mathématiques de deux populations est donné par les quantités M X − MY ± t × Student à q 1 nX + nX + nY − 2 1 nY σ b où t peut être obtenu comme quantile de la loi de 2 degrés de liberté . 1 et en l'espèce, les écarts-types des deux groupes sont relativement 2 à l'aide de la formule q = 1 − 1−N C pour déterminer le quantile 2 diérents 9.6. TEST D'HYPOTHÈSES 73 Le calcul se réalise automatiquement en utilisant le menu déroulant "Statistiques", l'option "Moyennes" puis "t-test indépendant". Attention, dans la fenêtre de dialogue, à la question "Variances égales ?", il faut donner la réponse "oui", qui n'est pas l'option par défaut ! Avec les données de stress, nous obtenons un intervalle de conance à N C = 95% s'étendant de −12.9 à 0.6. Bien qu'une valeur nulle ne puisse être exclue et que la largeur de l'intervalle soit considérable, la diérence entre les deux groupes semble signicative. Remarque 105 Comme cela a été signalé ci-dessus, les écarts-types des deux groupes sont assez diérents, on peut employer la méthode de Welch, en reprenant la même procédure informatique mais en donnant à la question "Variances égales ?" la réponse par défaut "oui". Exercice 106 Calculer un intervalle de conance pour la diérence de exion droite chez les nageurs. Calculer un intervalle de conance pour la exion gauche (variable FEG). Représenter graphiquement ces deux intervalles de conance à l'aide du graphe des moyennes. 9.6 Test d'hypothèses Dénition 107 Pour tester dans deux populations normales, d'écarts-types iden- σ , l'hypothèse que leurs espérances mathématiques sont égales (H0 : µX = µY ), on utilise le test de Student pour échantillons indépendants. On calcule pour les moyennes observées MX et MY des deux échantillons de tailles nX et nY le score normalisé suivant qui servira de statistique de test : tiques t= M − MY qX . σ b ( n1X + n1Y ) La probabilité critique de l'hypothèse nulle Ha(1) : µX > µY est égale à la probabilité que la loi de nX + nY − 2 degrés de liberté soit plus élevée que t. contre l'hypothèse Ha(2) : µX < µY est égale à la probabilité que la même loi soit plus petite que t. contre l'hypothèse Ha(3) : µX 6= µY est égale à la probabilité que cette loi soit plus éloignée de zéro que t. contre l'hypothèse Student à Les calculs s'obtiennent par la même procédure que pour les intervalles de conance, en choisissant soigneusement les hypothèses alternatives. Nous obtenons en choisissant l'hypothèse alternative Ha(1) : µX 6= µY (car on ne pensait pas initialement qu'il puisse y avoir une diérence entre les deux groupes), t = −1.8809, et avec 23 degrés de liberté, une probabilité critique de p = 0.07271. Le test n'est pas statistiquement signicatif au seuil habituel de 5%. Toutefois, la faible atille de l'échantillon, l'importance de la taille d'eet et la proximité de la probabilité critique du seuil sacré de 5% font que cette conclusion doit être largement nuancée. 74CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA Exercice 108 Réaliser un test de la diérence entre nageurs et sédentaires pour la exion droite. Est-il signicatif au seuil habituel ? Ce résultat est-il généralisable ? Exercice 109 Reprendre les données de Ferrand (ALIMENTATION.xls, exercice ??) concernant les désordres alimentaires chez les jeunes lles. En sélectionnant correctement les bons sous-ensemble de données, comparer l'estime de soi des jeunes lles non sportives aux gymnastes, puis aux nageuses. Exercice 110 En reprenant les données de Chabaud (TR.xls), comparer en condition témoin, les non-sportifs, aux sprinters, puis les handballeurs aux grimpeurs. Remarque 111 Dans les deux exercices précédents, il conviendrait d'employer une méthode qui compare simultanément plus de deux groupes. Cette technique s'appelle l'analyse de variance et sera étudiées dans le cadre du master MPS deuxième année. 9.7 Introduction au bootstrap 9.7.1 Un exemple "simple" La procédure classique de calcul de l'intervalle de conance est complexe, elle fait appel à la théorie des lois de probabilité et revient pour chaque situation à une formule mathématique diérente. Il est possible de procéder tout autrement avec une méthode qui permet de nombreuses extensions : le bootstrap. Le bootstrap (Efron et Tibshirani, 1993 ; Jonhson, 1999) est une méthode de ré-échantillonnage informatique qui permet de réaliser de l'inférence statistique en passant par un algorithme informatique toujours semblable. La grande question de la statistique inférentielle est la suivante : " que devient la statistique si on répète l'échantillonnage (sur des unités issues de la même population) ? " Le bootstrap y répond de façon étonnamment simple en disant que l'échantillon est ce qui peut le mieux remplacer la population originelle, il sut par conséquent de tirer avec remplacement le même nombre d'individus dans l'échantillon - et non pas dans la population- et de calculer la statistique sur ce nouvel échantillon dit échantillon bootstrap. Rien n'empêche alors de recommencer ce tirage par exemple B=2000 fois et donc d'obtenir une idée concrète sur la distribution de la statistique dite distribution bootstrap lorsqu'on répète l'échantillonnage. On peut en particulier construire un histogramme de cette distribution bootstrap, calculer son écart-type qui est donc l'erreur standard de la statistique V et déterminer des intervalles de conance du paramètre d'intérêt. Voyons sur un exemple le fonctionnement de cette procédure. Nous allons reprendre les données du chier ALIMENATION.xls qui concernent n = 152 jeunes lles. Il s'agit de comparer la moyenne de l'estime de soi à la norme de 32.88. Un calcul classique d'intervalle de conance avec le t de Student donne pour intervalle de la moyenne : 27.86 < µ < 29.36 ce qui exclue nettement la 9.7. INTRODUCTION AU BOOTSTRAP 75 norme.Pour calculer un intervalle de conance par bootstrap, nous allons tirer un échantillon de 152 jeunes lles avec remplacement parmi l'échantillon de départ, puis calculer sa moyenne. On parle de réplication bootstrap. Ce rééchantillonnage sera recommencé B=1000 fois ! Nous obtenons donc une distribution dite distribution boostrap de la statistique d'intérêt (la moyenne) que l'on peut représenter sur un histogramme (voir gure 9.2). L'écart-type de cette distribution donne l'erreur standard (dont il se trouve que l'on a une formule exacte dans le cas de la moyenne) qui est ici de SE = 0.37. On peut calculer un intervalle de conance, il existe plusieurs méthodes, mais l'intervalle BCa est souvent présenté comme étant le meilleur, il donne une valeur de (27.82, 29.31 ) tout à fait en cohérence avec l'intervalle classique. Les lignes de code ci-dessous montrent avec le package boot comment obenir ce résultat. require(boot) mean.npara<function(x,i){ stat<-mean(x[i]) stat} boot.essai1<-boot(data=ALIMENTATION$ES,statistic=mean.npara, R=1000,sim="ordinary",stype="i") boot.essai1 boot.ci(boot.essai1) Le bootstrap donne donc des résultats similaires à la proposition théorique habituelle. Mais il peut faire mieux. Ainsi, nous pouvons nous intéresser à la taille d'eet de Cohen c'est-à-dire au paramètre : d= µ − norme σ Ce paramètre est estimé par la statistique dˆ = x̄−norme . Nous obtenons SD en l'espèce : dˆ = −0.91. L'intervalle BCa de conance est de (-1.08, -0.74) ce qui exclut clairement 0 du champ des possibles. On peut voir dans le listing ci-dessous qu'une modication mineure de l'algorithme a été nécessaire. (mean(ALIMENTATION$ES)-32.88)/sd(ALIMENTATION$ES) ES.d.npara<function(x,i,norme){ stat<-(mean(x[i])-norme)/sd(x[i]) stat} boot.essai2<-boot(data=ALIMENTATION$ES,statistic=ES.d.npara, R=1000,sim="ordinary",stype="i",norme=32.88) boot.ci(boot.essai2) 0 50 100 n 150 200 76CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA 27.5 28.0 28.5 29.0 29.5 Réplications bootstrap de la moyenne 9.2 Histogramme de 1000 réplications bootstrap de la moyenne pour l'estime de soi de 152 jeunes lles Fig. 30.0 9.7. INTRODUCTION AU BOOTSTRAP 77 Il est possible de calculer un intervalle de conance du paramètre en utilisant une théorie statistique complexe mariant loi de Student décentrée et théorie de l'inversion des tests. On en a une explication détaillée dans Smithson (2003) et la fonction ci.ES.simple.t.test fournie dans l'environnement de travail ES.Rdata. Elle donne un intervalle de (-1.10,-0.72), autrement dit similaire. Cette fonction repose sur l'hypothèse de normalité des données contrairement au bootstrap qui ne la nécessite pas. Elle peut toutefois être utile dans le cas de résultats tirés de la littérature, où l'on ne possède pas le détail des données (donc où le bootstrap n'est pas possible sauf pour une version dite paramétrique) mais seulement M, SD, n et la norme. C'est souvent le cas lorsque l'on réalise une méta-analyse. ci.ES.simple.t.test(M=mean(ALIMENTATION$ES),SD=sd(ALIMENTATION$ES),norme=32.88,n=152) Mais il est également possible de s'intéresser à des statistiques nouvelles avec le bootstrap, dont on ne connaît pas, au plan probabiliste, la distribution d'échantillonnage. La robustesse est un autre thème moderne de la statistique. Il est possible de proposer une version robuste du d de Cohen. Elle est basée sur une moyenne et un écart-type robustes (de Huber). Nous obtenons un intervalle de conance BCa : (-1.0503, -0.6968 ). require(MASS) ES.ROBd.npara<function(x,i,norme){ stat0<-hubers(x[i]) stat<-(stat0$mu-norme)/stat0$s stat} boot.essai3<-boot(data=ALIMENTATION$ES,statistic=ES.ROBd.npara, R=1000,sim="ordinary",stype="i",norme=32.88) boot.ci(boot.essai3) 9.7.2 Un exemple "multivarié" Il est parfois intéressant de calculer des statistiques qui portent sur plusieurs variables. L'exemple le plus classique est celui du coecient de corrélation linéaire. La procédure bootstrap est similaire, on va tirer avec remplacement depuis l'échantillon des unités statistiques. Elles comprendront simplement plusieurs mesures (2 en l'espèce) à partir desquelles on pourra calculer des réplications de la statistique d'intérêt. Toujours pour le chier ALIMENTATION, on peut se poser le problème de la corrélation entre la mesure d'estime de soi corporelle et le BMI. Le coecient de corrélation observé est de -0.2754383. On peut obtenir un intervalle de conance par des méthodes classiques mais qui reposent sur une hypothèse de binormalité, on obtient alors −0.4163807 < ρ < −0.1215684 ou alors par bootstrap et on obtient dans ce cas −0.4044 < ρ < −0.1419. 78CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA ES.r.npara<function(x,i){ stat<-cor(x[i,1],x[i,2]) stat} boot.essai4<-boot(data=cbind(ALIMENTATION$BES,ALIMENTATION$BMI), statistic=ES.r.npara,R=1000,sim="ordinary",stype="i") boot.ci(boot.essai4) 9.7.3 Un exemple avec "strates" On veut comparer le BMI dans les diérents groupes de jeunes lles (contrôle, NS, GRS). On peut donc réaliser une analyse de variance et calculer le rapport de corrélation. On obtient un IC par bootstrap de 0.0216 < η 2 < 0.1928. Le rééchantillonnage a cette fois lieu à l'intérieur des groupes (on parle de strates). ES.eta2.npara<function(x,i){ y<-x[i,1] f<-x[i,2] stat<-summary.lm(aov(y∼f))$r.squared stat} boot.essai5<-boot(data=cbind(ALIMENTATION$BES,ALIMENTATION$Nomination), statistic=ES.eta2.npara,R=1000,sim="ordinary",stype="i", strata=ALIMENTATION$Nomination) boot.ci(boot.essai5) Chapitre 10 Etudes inférentielles concernant des proportions 10.1 La lecture du jour : Schechtman [12] Cet article montre les diérentes taille d'eet et intervalle de conance qui peuvent être calculés - Les procédures calculatoires sont d'ailleurs clairement présentées - lorsque deux proportions sont comparées. Cette situation, très courante dans le domaine médicale, donne lieu à une terminologie particulière en termes de risques. L'auteur conclut sur la nécessité de combiner deux types de taille d'eet, une mesure absolue plus utile pour l'interprétation pratique (clinique) et une mesure absolue, plus utile pour résumer l'importance de la preuve. Ces conclusions peuvent sans doute également s'appliquer aux autres situations déjà étudiées : comparaison de moyennes... 10.2 La situation Est-ce que le fait de jouer à domicile en football constitue un avantage, en particulier en ce qui concerne l'arbitrage ? Sur 26 matchs de haut niveau, deux observateurs ont noté que l'équipe qui reçoit a commis 1893 irrégularités et a été sanctionnée 661 fois contre 1971 fautes pour l'équipe visiteuse dont 791 ont été réprimées. 79 80CHAPITRE 10. ETUDES INFÉRENTIELLES CONCERNANT DES PROPORTIONS 10.3 Les statistiques et tailles d'eet pour les proportions 10.3.1 Notations et proportions La situation est donc celle de l'étude d'une variable binaire (faute sanctionnée ou non) observée dans deux groupes (équipe à l'extérieur ou à domicile). Il y a n1 unités dans le groupe 1 et n2 dans le second. Dans le premier groupe x1 éléments sont considérés comme un succès (au sens de la distribution binomiale) et respectivement x2 dans le second. Pour bien comprendre la notation, nous avons pour le problème de l'arbitrage, l'équipe visiteuse qui a eu x1 = 791 fautes sanctionnées sur n1 = 1971 fautes et donc n1 − x1 = 1971 − 791 = 1180 fautes non sanctionnée. groupe 1 x1 n1 − x1 n1 Succès Echec Total groupe 2 x2 n2 − x2 n2 10.1 Eectifs dans le cas d'une variable binaire (Succès/Echec) mesurée dans deux groupes Tab. Les statistique essentielles sont bien entendues les proportions observées, c'est-à-dire : p1 = nx11 et p2 = nx22 . On obtient ainsi pour l'équipe visiteuse : p1 = 791/1971 = 0.401 et pour celle qui reçoit : p2 = 668/1893 = 0.349. Il semble bien que l'équipe qui reçoit soit moins sanctionnée. 10.3.2 Tailles d'eet absolues Dénition 112 La mesure la plus classique est la diérence de proportions ou 1 diérence de risque , il s'agit de : DR = p1 − p2 . En l'espèce nous obtenons : DR = 0.052 soit une diérence de 5%. Remarque 113 Dans le domaine médical, l'inverse de la diérence de propor- tions est parfois calculé, on appelle cette quantité le nombre à traité (number to treat NTT). 10.3.3 Tailles d'eet relatives Dénition 114 1 appelée Nous considérerons trois mesures de taille d'eet relative absolute risk reduction (ARR) dans la référence [12] 10.4. INTERVALLES DE CONFIANCE POUR DES PROPORTIONS 81 le rapport de proportion, appelé aussi risque relatif : RR = le "odds-ratio" : OR = et la taille d'eet hC p1 , p2 p1 /(1 − p1 ) p2 /(1 − p2 ) de Cohen √ √ hC = 2arcsin( p1 ) − 2arcsin( p2 ). Les risque relatif est l'indicateur le plus couramment utilisé, il est en l'espèce égale à RR = 0.401/0.349 = 1.149. L'interprétation est relativement aisée, la proportion de sanctions de l'équipe visiteuse est 15% plus élevée que celle qui reçoit. Le résultat exprimé en termes de risque relatif donne une idée bien diérente de celui exprimé en termes de diérence de risque, en particulier lorsque les proportions sont petites. Le "odds-ratio" est une quantité très intéressante car elle se prête facilement à des ajustements de proportions par rapport à d'autres variables (âge, sexe...) grâce à une méthode appelée régression logistique. Les études médicales sophistiquées sont souvent exprimées par cet indicateur. Nous trouvons en l'espèce : OR = 0.401/(1−0.401) 0.349/(1−0.349) = 1.249. Il faut juger de cette quantité par rapport à la valeur 1. Au dessus de 1, la première proportion est plus élevée, en deça elle est plus basse. Nous trouvons hC = 0.108 avec la méthode de Cohen2 . Cette dernière est moins employée dans le domaine médical mais elle est en liaison directe avec des calculs de puissance des tests et bénécie en outre d'une proposition d'évaluation qualitative conventionnelle avec un eet faible lorsque hC = 0.2, un eet moyen lorsque hC = 0.5 et d'un eet fort lorsque hC = 0.8. L'eet observé hC = 0.108 est ainsi jugé plus que faible. 10.4 Intervalles de conance pour des proportions Les intervalles de conance pour les proportions s'obtiennent selon les méthodes de calcul décrites dans l'article [12]. L'intervalle de conance de la diérence de proportions s'obtient directement en utilisant la fonction prop.test sous la forme : prop.test(x=c(791,661),n=c(1971,1893),conf.level = 0.95) ce qui donne ici (0.021 − 0.083). Le grand nombre d'observations fait que cet intervalle est peu étendu et clairement diérent de zéro. An d'obtenir des intervalles de conance pour les tailles d'eet relatives, il faut "sourcer le chier R" SC2007.R ce qui donne accès aux fonctions CI.RR, 2 Charger le package "pwr" et employer la commande : ES.h(791/1971,661/1893) 82CHAPITRE 10. ETUDES INFÉRENTIELLES CONCERNANT DES PROPORTIONS CI.OR et CI.hC qui fonctionnent avec les mêmes arguments que la fonction prop.test. Nous obtenons respectivement pour RR : (1.059−1.247), pour OR : (1.096− 1.424) et pour hC : (0.045 − 0.171). 10.5 Tests d'hypothèses pour des proportions On va modéliser le nombre de sanctions comme étant une variable binomiale pour chaque équipe avec pour l'équipe recevant (variable X1 ) les paramètres n1 = 1893 et π1 et pour l'équipe qui visite (variable X2 n2 = 1917 et π2 . La question est de savoir si les deux probabilités de succès sont diérentes et plus particulièrement en l'espèce si H0 : π1 = π2 contre Ha : π2 > π1 . Dénition 115 Pour tester dans deux populations/modèles binomiaux l'hypo- thèse que leurs probabilités de succès soient égales (H0 : π1 = π2 ), on calcule, x1 et x2 observés dans les deux échantillons x x +x x proportions p1 = n1 , p2 = n2 et p∗ = n1 +n2 . On peut 1 2 1 2 à partir des nombres de succès de tailles n1 et n2 , les alors dénir le Z-score qui servira de statistique de test : p 1 − p2 z=q 1 ( n1 + n12 )p∗ (1 − p∗ ) La probabilité critique de l'hypothèse nulle Ha(1) : π1 > π2 est égale à la probabilité que la loi normale standard soit plus élevée que z . contre l'hypothèse Ha(2) : loi soit plus petite que z . contre l'hypothèse π1 < π 2 est égale à la probabilité que la même 6= π2 z. est égale à la probabilité que cette loi Ha(3) : π1 soit plus éloignée de zéro que contre l'hypothèse On obtient en l'espèce p1 = 0.349, p2 = 0.413 et p∗ = 661 + 791 = 0,381. 1893 + 1917 . La statistique de test s'élève ici à z=q 0,349 − 0,413 1 ( 1893 + 1 1917 ) × 0,381 × (1 − 0,381) = −4,06. La probabilité qu'une loi normale prenne une valeur inférieure à -4.06 est de 0.000025. L'hypothèse nulle semble peu compatible avec les données, on décide que l'arbitrage est bien inuencé à domicile. La fonction prop.test réalise un calcul proche, on obtient une probabilité critique en version bilatérale de p = 0.0009265. Lorsdqu'on dispose des données par individus, on peut employer l'interface Rcmdr et l'option "Statistiques" puis "Proportions" et "Test de proportions bivarié". 10.5. TESTS D'HYPOTHÈSES POUR DES PROPORTIONS Remarque 116 Les calculs de puissance peuvent se faire soit en utilisant la fonction de R dite du package pwr. Remarque 117 83 power.prop.test soit les fonctions pwr.2p.test et pwr.2p2n.test Lorsque l'on souhaite comparer plus de deux groupes, ou bien le faire sur une variable catégorielle comportant plus de deux catégories, on se retrouve dans une situation où le croisement des deux informations forme un tableau croisé. Les méthodes d'étude de ces tableaux, en méthode du chi-carré d'indépendance de Pearson, seront particulier la fameuse vu en deuxième année de master MPS. Exercice 118 Une expérience a permis de tester leet d'une crème (acyclo- vir), censée protéger de l'herpès labial, contre un placebo. Le groupe traité avec acyclovir présente 18 patients sourant de lésions sur 91 contre 35 sur 90 dans le groupe de contrôle. On va utiliser un test Z d'égalité de deux proportions an de démontrer l'ecacité de cette crème de protection. Quelle forme préconisez-vous pour l'hypothèse alternative ? Quelle est la diérence entre les deux proportions observées ? Quelle est la valeur de Quelle est la valeur de p∗ , proportion compromis Z , la statistique de test ? des deux échantillons ? Quelle est la direction de l'hypothèse alternative par rapport à Z? Quelle est la probabilité critique correspondante ? Quelle est votre conclusion quant à l'ecacité du traitement ? Exercice 119 Les étudiants d'origine asiatique sont de plus en plus nombreux dans les universités américaines. En revanche, les éducateurs physiques d'origine asiatique y sont plutôt rares. Ils pourraient pourtant servir de modèles et orienter ? la carrière de ces étudiants. Chen et Hu [ ] ont cherché à comparer les opinions d'étudiants d'origine asiatique envers l'éducation physique à celles d'étudiants d'origine caucasienne. L'étude inclut 176 étudiants asiatiques et 237 caucasiens suivant des cours d'éducation physique dans deux universités californiennes. Les étudiants, en répondant à un questionnaire, avaient l'opportunité de dire s'ils avaient ou non été fortement inuencés par leur famille dans le choix de leur spécialité d'étude. Cinquante quatre étudiants asiatiques ont déclaré que c'était le cas contre 15 caucasiens. Tester s'il y a une diérence statistiquement signicative au niveau 5% entre les réponses des deux types d'étudiants. Tester la fonction prop.test α= 84CHAPITRE 10. ETUDES INFÉRENTIELLES CONCERNANT DES PROPORTIONS Chapitre 11 Etude inférentielle de corrélation 11.1 La lecture du jour : Anscombe [13] L'article de Anscombe est un article pédagogique mettant en garde contre une approche purement calculatoire de la statistique. Il construit un exemple où des situations profondément diérentes ne peuvent être distinguées par un calcul des statistiques de relation (coecient de corrélation linéaire) mais où un graphique permet de repérer les dicultés. Tout au long de ce chapitre, en particulier lors des exercices, on verra l'intérêt de ce judicieux conseils sur des données cette fois réelles. 11.2 La situation : relier deux mesures numériques La relation entre la fréquence cardiaque maximum (variable FCM) et l'âge (variable Age) est bien connue, en particulier une formule mnémotechnique est F CM = 220 − AGE . Le site www.fsp.saliege.com propose des mesures concernant des coureurs à pieds amateurs. Les données (n=13) sont présentées dans le chier COUREURS.xls. Nous allons voir si cet échantillon s'accorde avec la formule mathématique proposée. 11.3 Le nuage de points Le graphique incontournable dans cette situation s'appelle le nuage de points. Il s'agit simplement de représenter les données dans un graphe cartésien. On choisit donc une des variables qui est la variable X , qui est la variable explicative dans une perspective explicative et une variable Y qui est la variable à expliquée 85 86 CHAPITRE 11. ETUDE INFÉRENTIELLE DE CORRÉLATION dans cette même perspective. Si les deux variables sont sur le même plan et qu'on cherche simplement à étudier leur relation, peu importe alors le choix de X et Y. Ici, il est clair que la variable explicative X est l'âge et la variable à expliquer Y est la FCM. Pour obtenir le graphique 11.1, on utilise le menu déroulant "Graphes", puis "Nuage de points". Dans la fenêtre de dialogue, il n'est pas utile de cocher les options : "Boites de dispersion marginales" et "Courbe de lissage". Remarque 120 Dnas un nuage de points, on cherche avant tout à déterminer s'il existe une relation entre X et Y, si elle est linéaire, c'est-à-dire si les points sont globalement placés autour d'une droite, et le signe de la relation : positif si Y augmente en même temps que X et négatif le cas échéant. On constate que la relation est relativement claire entre les deux variables, elle paraît linéaire et en tout cas négative. Exercice 121 Reprendre les données de Monteil et al. (NAGEURS.xls). Sélec- tionner uniquement les nageurs (n = 15). Chercher s'il existe une relation entre la exion droite et la exion gauche dans ce groupe. Est-elle linéaire ? Quelle est son signe ? 11.4 Le coecient de corrélation linéaire r An de quantier la relation entre deux variables numériques on emploie le notée r. Ce coecient prend ses valeurs de −1 à 1. Proche de −1 la relation est linéaire et négative, proche de 0, il n'y a pas de relation linéaire, proche de 1 la relation est linéaire et positive. coecient de corrélation linéaire Dénition 122 Le coecient de corrélation linéaire r est un indicateur de rela- tion entre deux variables numériques. Sa valeur absolue (leq1) indique l'intensité de la linéarité et son signe le sens de la relation. Pour ceux qui aiment les formules 123 pour n Le coecient de corrélation linéaire (xi ; yi ) se calcule comme P 1 i (xi − MX )(yi − MY ) n . r= SDX SDY couples de mesures Pour calculer ce coecient, on utilise le menu déroulant "Statistiques", l'option "Résumés" puis "Test de corrélation". Attention, dans la fenêtre de dialogue, il faut sélectionner simultanément les deux variables. On obtient une valeur de r = −0.8496 comme coecient entre l'âge et la FCM. Cela conrme que la relation est négative : avec l'âge, la FCM baisse. 11.4. LE COEFFICIENT DE CORRÉLATION LINÉAIRE R 87 ● ● ● 190 FCM 195 200 ● ● ● ● 185 ● ● ● ● 180 ● ● 25 30 35 40 45 50 Age 11.1 Nuage de points entre l'âge (X ) et la fréquence cardiaque maximum (Y ) pour les données des coureurs amateurs. Fig. 55 88 CHAPITRE 11. ETUDE INFÉRENTIELLE DE CORRÉLATION Remarque 124 r En référence à l'hypothèse de non corrélation, le coecient peut directement servir de taille d'eet relative. On compare alors sa valeur absolue aux tailles conventionnelles suivantes : 0.5 0.1 (petite), 0.3 (moyenne) et (grande). Pour l'exemple traité, la relation est donc considérée comme très forte. 11.5 Intervalle de conance de r Le modèle statistique sous-jacent sera peu détaillé car complexe : il s'agit d'une généralisation de la loi normale à deux dimensions qui s'appelle loi normale bivariée. Pour la caractérisée, il faut l'espérance mathématique de chaque variable (X et Y ), leurs écarts-types respectifs et un paramètre supplémentaire appelé coecient de corrélation théorique ρ qui est la généralisation de r. L'intervalle de conance cherche donc à encadrer la valeur de ce paramètre ρ. Le calcul de l'intervalle de conance de ρ à partir de r est complexe1 . Nous nous contenterons d'utiliser les calculs réalisés en utilisant la procédure précédente. Nous obtenons au niveau de conance N C = 0.95 un intervalle qui s'étend de −0.95 à −0.56. Cet intervalle est de grande largeur, ce qui est dû au peu de mesures (n = 13). Malgré cela, la valeur de référence 0 clairement hors de l'intervalle. Exercice 125 Calculer un intervalle de conance du coecient de corréla- tion entre les variables FEG et FED pour les nageurs dans l'étude de laxité de l'épaule. Recommencer avec les non-nageurs. Comparer ces deux intervalles. 11.6 Le test de r Toujours sur la base du modèle statistique normal bivarié, on cherche à tester H0 : ρ = 0 contre Ha : ρ 6= 0 (en version bilatérale). Le test statistique est basé sur le coecient de corrélation linéaire r calculé sur l'échantillon de taille n. On dénit alors la statistique de Student √ r T = n − 2√ . 1 − r2 Sous l'hypothèse nulle, cette statistique suit une loi de Student à n − 2 degrés de liberté. Le calcul de la statistique t, du nombre de degré de liberté et de la probabilité critique s'obtient à nouveau par la même procédure. Puisque l'on s'attend à une relation négative entre l'âge et la FCM, on choisit un test unilatéral et on obtient en l'espèce t = −5.3426 avec 11 degrés de liberté et une probabilité critique de p = 0.0001182. La relation est statistiquement signicative. 1 basée sur une transformation qu'on appelle Z de Fisher) Z(r) = 1 1+r 1 ln( ) ∼ N (Z(ρ), √ ). 2 1−r n−3 11.7. QUELQUES EXERCICES POUR SAISIR LA SUBTILITÉ DE LA NOTION DE CORRÉLATION89 11.7 Quelques exercices pour saisir la subtilité de la notion de corrélation Exercice 126 Le chier ASVEL2bis.xls pour n = 586 supporteurs de l'AS- VEL une mesure de la (log) distance entre leur domicile et le stade (variable LogDist), ainsi qu'un score issue d'un questionnaire mesurant leur "peur" de faire une erreur lorsqu'ils choisissent de venir voir un match à l'Astroballe (variable PeurErreur) : "plus l'indice est élevé, plus ils ont peur de se tromper". Réaliser un graphique de la relation entre ces deux variables. Calculer le coecient de corrélation linéaire. Tester si ce coecient peut être considéré comme nul. Quelle est votre conclusion. Calculer un intervalle de conance, quelle est votre conclusion ? Quelle est la taille d'eet correspondante ? Quelle est votre conclusion ? Exercice 127 Le chier VOLLEY.xls contient pour 12 clubs de volleyball de la région Rhône-Alpes le nombre de licenciés de ce club (variable Licencies ) et la recette (variable Recettes en Francs). Réaliser une nuage de points permettant d'établir une éventuelle relation entre le nombre de licenciés du club et la recette. Comment décririez-vous cette relation ? Quelle est la valeur du coecient de corrélation linéaire ? Que pensez-vous de cette valeur ? Exercice 128 Le chier FITECHTEST.xls contient les valeurs (n procédure de test-retest sur la valeur de V O2max = 30) d'une obtenue par le tech test [21]. Réaliser une représentation graphique de la relation entre les variables test1 et test2. Que pensez-vous de la relation ? Calculer le coecient de corrélation linéaire. Quel est le sens d'un test de nullité de ce coecient alors qu'on cherche à montrer que la relation est forte ? Quel est l'intérêt de l'intervalle de conance dans cette situation. Exercice 129 Le chier RUGBY.xls contient les tailles et poids moyens par poste de jeu des rugbymen de l'élite 1 française (Maso [22]). Représenter le nuage de poids où l'axe X est celui de taille et l'axe Y celui de poids. Comment caractériser cette relation ? Quels points semblent assez éloignés de cette relation ? Quelles est le comportement de la droite tracées sur le graphique, reètet-elle le comportement de la majorité des points ? 90 CHAPITRE 11. ETUDE INFÉRENTIELLE DE CORRÉLATION Annexe A Installation du logiciel R et du package Rcmdr A.1 Installation de R pour Windows 1. Aller sur le site http ://www.r-project.org/ an de récupérer le logiciel d'installation de R. Cliquer sur Download an de trouver un site miroir proche pour limiter le temps de chargement, par exemple le site http ://cran.univ-lyon1.fr. 2. Charger une distribution précompilée (Precompiled Binary Distributions) pour Windows (95 and later). Cliquer sur Base, puis charger sur votre disque dur (C :) le logiciel d'installation R-2.5.1-win32.exe (la dernière version à l'heure où j'écris ce document, mais depuis . . .). 3. Double-cliquer sur le logiciel R-2.5.1-win32.exe an de procéder à l'installation de R. Choisir les options par défaut an de l'installer sur le disque C. A.2 Utilisation de R Utiliser le menu démarrer, puis Tous les programmes, puis R, puis R 2.5.1. Le logiciel s'ouvre alors et une fenêtre "Rconsole" apparaît. Il faut indiquer au logiciel R dans quel répertoire windows il doit aller chercher les chiers (en particulier les jeux de données) dont nous avons besoin et où les sauvegarder également ; ce répertoire est dit répertoire de travail. Dans le menu déroulant "Fichier", existe une option "Changer de répertoire courant" qui par l'intermédiaire d'une arborescence permet de choisir le répertoire qui nous convient (par défaut c'est C :\Program Files\R\R-2.5.1). Le problème du logiciel R est qu'il s'agit d'un logiciel à langage de commandes, c'est à dire que pour l'utiliser, il faut taper des commandes dans la console, les valider pour obtenir des calculs ou des graphiques. Toutefois, il existe 91 92ANNEXE A. INSTALLATION DU LOGICIEL R ET DU PACKAGE RCMDR une version interactive employant des menus déroulants qui s'appelle Rcmdr que nous allons employer. A.3 Installation et chargement du package Rcmdr A.3.1 Installation de Rcmdr Avant de commencer à utiliser ce package, il faut toutefois l'installer. La démarche suivante n'est donc à réaliser qu'une fois : 1. L'un des menus déroulants de R s'appelle "Packages". Choisir dans ce menu l'option "`Installer le(s) package(s)". 2. Une fenêtre de dialogue s'ouvre qui vous propose un ensemble de site où vous pouvez chercher ce package. Choisir un site situé en France. 3. Une autre fenêtre s'ouvre qui propose une (longue) série de package, il faut choisir Rcmdr. Le téléchargement se produit alors automatiquement sur votre ordinateur (Ne pas s'inquiéter, beaucoup de packages sont en fait téléchargés). A.3.2 Utilisation de Rcmdr Pour utiliser le package Rcmdr (Une fois qu'il est installé...), il sut d'aller dans le menu déroulant "Packages" et de choisir l'option "Charger le package". Il faut choisir dans la liste des packages déjà installés sur votre ordinateur Rcmdr. Une fenêtre s'ouvre alors qui s'appelle "R commander". On utilise alors les menus déroulants pour choisir diérentes options (charger un chier, calculer des statistiques, réaliser des graphiques). Il faut noter que le résultat des actions s'inscrit dans la fenêtre du bas du R commander qui s'appelle "Fenêtre de sortie". En revanche, les graphiques apparaissent dans la fenêtre habituelle de R dite RGui. Il faut donc jongler entre RGui et Rcommander (on sy habitue). Enn on peut noter que lorsqu'une action est choisie par un menu déroulant, des lignes s'inscrivent dans la fenêtre dite "Fenêtre de script". Il s'agit des commandes réelles que R exécute (et dont on voit le résultat dans la fenêtre de sortie). Il se peut que dans certains cas (très rares), les menus déroulants ne soient pas susants, nous entrerons alors directement des commandes dans cette fenêtre de script pour les exécuter. Bibliographie [1] R : A Language and Environment for Statistical Computing, R Development Core Team, R Foundation for Statistical Computing, Vienna, Austria, 2007, ISBN : 3-900051-07-0, http ://www.R-project.org. [2] Champely S. (2003) Statistique vraiment appliquée au sport. Editions de Boeck. [3] J. Cohen (1988) Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Associates, publishers. [4] Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth edition. Springer. [5] Lim, M.S.C., Hellard, M.E. & Aitken, C.K. (2005) The case of disappearing teaspoons : longitudial cohort study of the displacement of teaspoons in an Australian research institute. British Medical Journal, 331, 1498-1500. [6] Rousseuw, P.J. (1991) Tutorial to robust statistics. Journal of Chemometrics, 5, 1-20. [7] Kotrlik, J.W. & Williams, H.A. (2003) The incorporation of eect size in information technology, learning and performance research. Information Technology, Learning and Performance Journal, 21 (1), 1-7. [8] Greeneld et al. (1998) A statistics primer : condence intervals. American Journal of Sports Medecine, 26, 145-149. [9] Bonsangue, M.V. (1992) Is it true that blonds have more fun ? The Mathematics Teacher, 85 (7), 579-581. [10] Cohen, J. (1992) A power primer. Psychological bulletin, 112 ( 1), 155-159. [11] Diaconis, P. & Efron, B. (1983). Computer-Intensive Methods in Statistics. Scientic American, 116-130. [12] Schechtman, E. (2002) Odds ratio, relative risk, risk reduction, and the number needed to treat - Which of these should we choose ? Value in Health, 5, 431-436. [13] Anscombe, F.J. (1973) Graphs in statistical analysis. The American Statistician, 27, 17-21. [14] Chateld, C. (1991) Avoiding statistical pitfalls. Statistical Science, 6(3),240-268. 93 94 BIBLIOGRAPHIE [15] Riddoch, C. & Trinik, T. (1988) Gactrointestinal disturbances in marathon runners. British Journal of Sports Medecine, 47, 71-74. [16] Vignal, B., Champely, S. & Terret T. (2000) Piscines d'hier, loisirs d'aujourd'hui ? L'analyse de laclientèle lyonnaise. Espaces, 66, 143-156. [17] Sagnol, M., Claustre, J., Cottet-Emard, J.M., Péquignot, J.M., Fellman, N., Coudert, J. & Peyrin, L. (1990) Plasma free and sulphated catecholamines after ultra-long exercise and recovery. European Journal of Applied Physiology, 60, 91-97. [18] Haguenauer, M., Legreneur, P., Colloud, F. et Monteil, K.M. (2002) Characterisation of the push-o in ice-dancing : inuence of the support leg extension on performance. Journal of Human Movement Studies, 43, 197210. [19] Dine, G. (2000) Biologie et prévention en traumatologie du sport appliquées au football. Médecine du Sport, 74, 5-11. [20] Champely, S. & Verdot, C. (2007) Que signie la signicativité statistique : l'apport de la taille d'eet et de la puissance. A paraître dans STAPS. [21] Atkinson, G. & Nevill, A.M. (1998) Statistical method for assessing measurement error (reliability) in variables relevant to sports medecine. Sports Medecine, 26, 217-237. [22] Maso, F. (2000) De l'inuence ddes kilos et des centimètres sur la manière de jouer. Le Monde du Rugby, 20, 12. [23] Monteil, K.M., Taiar, R., Champely, S. & Martin, J. (2002) Competitive swimmers versus sedentary people : a predictive model based upon normal shoulder's exibility. Journal of Human Movement Studies, 43, 17-34.