Inférence statistique Application à la recherche en sciences

publicité
Inférence statistique
Application à la recherche en sciences du sport
Stéphane CHAMPELY, Université Lyon 1 (France)
30 août 2010
2
Table des matières
1 Introduction
5
2 Etude descriptive d'une mesure catégorielle (proportions)
2.1
2.2
2.3
2.4
2.5
2.6
2.7
La lecture du jour : Lim et al. [5] . . . . . . . . . . . . . .
La situation : des données catégorielles . . . . . . . . . . .
La lecture d'un jeu de données avec le logiciel Rcmdr . . .
Les types de mesures . . . . . . . . . . . . . . . . . . . . .
Les représentations graphiques pour mesures catégorielles
Les statistiques pour mesures catégorielles . . . . . . . . .
Problèmes classiques concernant les proportions . . . . . .
2.7.1 Les problèmes de sondage . . . . . . . . . . . . . .
2.7.2 Extension à l'étude de plus de deux catégories . .
2.7.3 Les données ordinales . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Etude descriptive d'une mesure numérique (moyenne et . . .)
3.1
3.2
3.3
3.4
3.5
3.6
La lecture du jour : Rousseeuw [6] . . . . . . . . . . .
La situation : des données numériques . . . . . . . . .
Représentations graphiques pour données numériques .
3.3.1 Le graphe indexé . . . . . . . . . . . . . . . . .
3.3.2 Le graphe de dispersion . . . . . . . . . . . . .
3.3.3 L'histogramme . . . . . . . . . . . . . . . . . .
3.3.4 Le graphe quantile-quantile . . . . . . . . . . .
Statistiques de centralité . . . . . . . . . . . . . . . . .
Statistiques de variabilité . . . . . . . . . . . . . . . .
Pour aller plus loin avec les données numériques . . .
3.6.1 La notion de symétrie . . . . . . . . . . . . . .
3.6.2 la multi-modalité . . . . . . . . . . . . . . . . .
3.6.3 Les données extrêmes . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Comparaison descriptive d'une moyenne à une norme
4.1
4.2
4.3
4.4
La lecture du jour : Kotrlik & Williams [7] . .
La situation de comparaison à une norme . .
Représentation graphique et comparaison à la
La mesure de la taille de l'eet . . . . . . . .
3
. . . .
. . . .
norme
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
8
8
9
9
9
9
9
11
13
13
13
14
14
15
15
15
17
17
19
19
20
20
23
23
23
24
26
4
TABLE DES MATIÈRES
4.5
4.6
Les tailles d'eet pour les proportions . . . . . . . . . . . . . . .
La notion de variation d'échantillonnage . . . . . . . . . . . . . .
5 Généraliser les résultats obtenus avec une proportion
5.1
5.2
5.3
5.4
5.5
5.6
5.7
Comment généraliser : l'inférence statistique . . . . . . . . . . . .
La situation : L'expérience des smarties . . . . . . . . . . . . . .
Notions de probabilités . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Expérience aléatoire et probabilités . . . . . . . . . . . . .
5.3.2 Notion de variable aléatoire (entière) . . . . . . . . . . . .
5.3.3 Représentation graphique d'une variable aléatoire entière
5.3.4 Résumés numériques pour une variable aléatoire entière .
Une variable aléatoire entière particulièrement utile : Le modèle
probabiliste binomial . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Le modèle probabiliste binomial . . . . . . . . . . . . . .
5.4.2 La loi de probabilités binomiale . . . . . . . . . . . . . . .
5.4.3 Espérance mathématique et variance binomiales . . . . .
5.4.4 Les probabilités cumulés . . . . . . . . . . . . . . . . . . .
Modèle probabiliste binomial et distribution d'échantillonnage
d'une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . .
Intervalle de conance "d'une proportion" . . . . . . . . . . . . .
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Généraliser les résultats obtenus avec une moyenne
6.1
6.2
6.3
6.4
6.5
6.6
La lecture du jour : Greeneld et al. [8] . . . . . . . . . . . . . .
La situation : Quelle est la VO2 max des enfants ? . . . . . . . . .
Une variable aléatoire réelle particulièrement utile : Le modèle
probabiliste normal . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Les intervalles : des événements particuliers . . . . . . . .
6.3.2 Le modèle probabiliste normal "standard" . . . . . . . . .
6.3.3 La loi normale . . . . . . . . . . . . . . . . . . . . . . . .
La distribution d'échantillonnage d'une moyenne . . . . . . . . .
L'intervalle de conance "d'une moyenne" . . . . . . . . . . . . .
6.5.1 La loi de Student . . . . . . . . . . . . . . . . . . . . . . .
Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6.1 Quelques problèmes à propos de l'utilisation des intervalles de conance . . . . . . . . . . . . . . . . . . . . . .
6.6.2 Les méta-analyses . . . . . . . . . . . . . . . . . . . . . .
7 Le test d'hypothèses
7.1
7.2
7.3
7.4
La lecture du jour : Bonsangue [9]
La situation : une norme à tester .
Le modèle et les hypothèses . . . .
La puissance d'un test d'hypothèse
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
28
31
31
32
32
32
33
33
34
35
35
36
36
37
37
40
41
43
43
43
44
44
44
46
47
49
49
51
51
51
53
53
53
53
57
TABLE DES MATIÈRES
5
8 Etude inférentielle de mesures numériques répétées (2 conditions)
59
8.1
8.2
8.3
8.4
8.5
8.6
8.7
La lecture du jour : Cohen [3] . . . . . . . . . . . . . . . . . . . .
La situation : des données numériques appariées . . . . . . . . .
Compréhension de la diérence entre échantillons appariés (mesures répétées ou blocs) et échantillons indépendants . . . . . . .
Graphiques pour échantillons appariés . . . . . . . . . . . . . . .
8.4.1 Le graphe parallèle . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Le graphe des diérences . . . . . . . . . . . . . . . . . .
Statistiques et taille d'eet . . . . . . . . . . . . . . . . . . . . .
Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . .
Test d'hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
59
60
60
60
62
62
64
64
9 Etude inférentielle de comparaison de deux groupes indépendants
67
9.1
9.2
9.3
9.4
9.5
9.6
9.7
La lecture du jour : Diaconis & Efron [11] . . . . . .
La situation : deux groupes indépendants de mesures
Les graphiques pour deux échantillons indépendants
Les tailles d'eet . . . . . . . . . . . . . . . . . . . .
Intervalle de conance . . . . . . . . . . . . . . . . .
Test d'hypothèses . . . . . . . . . . . . . . . . . . . .
Introduction au bootstrap . . . . . . . . . . . . . . .
9.7.1 Un exemple "simple" . . . . . . . . . . . . . .
9.7.2 Un exemple "multivarié" . . . . . . . . . . .
9.7.3 Un exemple avec "strates" . . . . . . . . . . .
10 Etudes inférentielles concernant des proportions
10.1 La lecture du jour : Schechtman [12] . . . . . . . . .
10.2 La situation . . . . . . . . . . . . . . . . . . . . . . .
10.3 Les statistiques et tailles d'eet pour les proportions
10.3.1 Notations et proportions . . . . . . . . . . . .
10.3.2 Tailles d'eet absolues . . . . . . . . . . . . .
10.3.3 Tailles d'eet relatives . . . . . . . . . . . . .
10.4 Intervalles de conance pour des proportions . . . .
10.5 Tests d'hypothèses pour des proportions . . . . . . .
11 Etude inférentielle de corrélation
11.1
11.2
11.3
11.4
11.5
11.6
11.7
. . . . . . .
numériques
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
La lecture du jour : Anscombe [13] . . . . . . . . . . . . . . . . .
La situation : relier deux mesures numériques . . . . . . . . . . .
Le nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . .
Le coecient de corrélation linéaire r . . . . . . . . . . . . . . .
Intervalle de conance de r . . . . . . . . . . . . . . . . . . . . .
Le test de r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quelques exercices pour saisir la subtilité de la notion de corrélation
67
67
68
68
70
71
72
72
75
76
77
77
77
78
78
78
78
79
80
83
83
83
83
84
86
86
87
6
TABLE DES MATIÈRES
A Installation du logiciel R et du package Rcmdr
A.1 Installation de R pour Windows . . . . . . . .
A.2 Utilisation de R . . . . . . . . . . . . . . . . .
A.3 Installation et chargement du package Rcmdr
A.3.1 Installation de Rcmdr . . . . . . . . .
A.3.2 Utilisation de Rcmdr . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
89
90
90
90
Chapitre 1
Introduction
Ce cours est une introduction à la statistique inférentielle destinée à des chercheurs en sciences du sport. Les chapitres sont organisés autour d'une question
précise du type "Comparer des mesures numériques à une norme" et d'un jeu de
données issu d'un article scientique. La plupart des disciplines sont couvertes
(psychologie, marketing, neurosciences, biomécanique, physiologie...) On cherchera systématiquement à montrer la démarche qui part d'une problématique,
de choix eectués pour collecter des données, les analyses statistiques envisageables, et les possibilités et modes de généralisation de ces résultats qui sont
possibles.
La statistique inférentielle a pour objet de généraliser les résultats observés
sur un échantillon. Toutefois, elle demande d'abord une description précise de
cet échantillon par des méthodes graphiques ou des résumés statistiques. C'est
pourquoi nous présenterons ces méthodes descriptives pour ceux qui n'ont pas
suivi préalablement une formation de statistique en L3 et les verrons en situation
pour les autres.
L'approche inférentielle choisie ici est particulière car classiquement on présente surtout les tests d'hypothèses dans ce type de cours. Cette tradition semble
à présent fortement remise en cause. Il nous semble également que ces techniques de tests bien que prééminentes dans la recherche actuelle ne sont pas les
meilleures. Aussi le lecteur s'apercevra que nous insistons plus largement sur les
méthodes descriptives, les notions de taille d'eet et d'intervalle de conance.
Nous présenterons malgré tout les méthodes de test caril est nécessaire de les
connaître an de pouvoir comprendre la littérature scientique.
Si les formules mathématiques sont présentées et décortiquées, elles ne sont
pas indispensables à l'application concrète de ces méthodes car nous emploierons
un logiciel appelé R dans sa version interactive Rcmdr. Ce logiciel est libre de
distribution. On trouvera en annexe un guide d'installation de ce logiciel.
Avant d'entamer chaque chapitre, on proposera de lire un article de nature
méthodologique qui décrit un aspect traité dans le cours et permet de le prolonger.
7
8
CHAPITRE 1. INTRODUCTION
Chapitre 2
Etude descriptive d'une
mesure catégorielle
(proportions)
2.1 La lecture du jour : Lim et al. [5]
L'article de Lim et al. [5] est bien évidemment un article parodique publié
dans une des plus grandes revues médicales. Au delà de son caractère distrayant,
on voit pour un problème futile ce qu'est la démarche scientique et commet
elle parvient à des réponses précises (quantiées). On peut constater, suite à
la dénition de la problématique, le soin et l'astuce apportés à la collecte des
données, la réalisation de calculs, certains très complexes et d'autres, c'est le
sujet du jour, qui sont de simples pourcentages, la représentation des données par
des graphiques, et même l'emploi de tests statistiques , c'est-à-dire de procédures
inférentielles, objet de ce cours. Sur la base des résultats présentés, on peut alors
habituellement mener une discussion solide, faire des rapprochements avec ce qui
est connu par ailleurs, voire élaborer de nouvelles théories1 . . .
2.2 La situation : des données catégorielles
La pratique de la course à pieds demande de savoir gérer diérents problèmes physiques, en autres, des tracas digestifs. Riddock et Trinik [15] ont
voulu étudier la prévalence de ce type de symptômes. Nous nous focaliserons
ici la survenance de diarrhées chez le coureur. Un questionnaire a été distribué
au participant d'un marathon demandant s'il leur arrivait de rencontrer ce type
de problème. sur Le jeu de données DIARRHF.xls contient les réponses de 38
1 Noter qu'une série de courriers hilarants ont aussi été publié dans le même journal en
réponse à ce papier qui prennent eux aussi la forme des réactions scientiques classiques à une
publication
9
10CHAPITRE 2. ETUDE DESCRIPTIVE D'UNE MESURE CATÉGORIELLE (PROPORTIONS)
femmes marathoniennes à la question : "A l'issue de vos marathons, avez-vous
souvent des problèmes digestifs de type diarrhées ?".
Le jeu de données "DIARRHF.xls" ne comprend qu'une colonne dont le
nom est "PbDigest". Cette colonne contient les réponses "Oui" ou "Non" des
38 coureuses. Les jeux de données utilisés en statistique ressemblent à des feuilles
de calcul. Les lignes du chier sont constituées des unités statistiques, c'est-àdire les individus, objets, groupes que l'on mesure (ici des marathoniennes) et
les colonnes des mesures correspondantes (ici une seule mesure).
2.3 La lecture d'un jeu de données avec le logiciel
Rcmdr
An d'importer le cher Excel "DIARRHF.xls" dans le logiciel R, il faut
suivre les étapes suivantes :
1. Lancer le logiciel R (menu "Démarrer" puis option "Tous les programmes"
puis "R" puis "R 2.5.1"'.
2. Déclarer le répertoire courant avec le menu déroulant "Fichier" puis l'option "Changer le répertoire courant". Le répertoire courant est celui où se
trouvent les jeux de données qui nous intéressent (ici DIARRHF.xls) et
où nous sauvegarderons éventuellement des résultats.
3. Il faut charger l'interface interactive de R en utilisant le menu déroulant
"Packages" puis l'option "Charger le package", choisir alors le package
Rcmdr (une interface graphique doit alors s'ouvrir).
4. Dans le menu déroulant "Données", choisir l'option "Importer des données" puis "Depuis Excel, Access ou dBase...". Dans la fenêtre de dialogue
qui s'ouvre, donner un nom au jeu de données, par exemple : digestion 2 .
5. Employer la fenêtre qui s'ouvre alors pour retrouver le chier à importer
(DIARRHF.xls).
6. Cliquer alors sur le bouton "Visualiser".
Après cette procédure, le jeu de données est actif pour le logiciel R. On peut
vérier qu'il est composé d'une unique colonne : PbDigest.
2.4 Les types de mesures
La première chose essentielle dans l'analyse d'un jeu de données est de comprendre la nature des mesures. Il existe deux grands types de mesures : les
mesures catégorielles et les mesures numériques. La variable "PbDigest" correspond à une mesure catégorielle comme peuvent l'être le sexe, la PCS, le sport
pratiqué. Les variables comme la taille, le poids, la vitesse, le volume du mollet
. . .sont numériques. Ce chapitre est consacré à l'analyse des mesures catégorielles.
2 Vous
pouvez aussi choisir le nom du chier Excel, c'est-à-dire DIARRHF
2.5. LES REPRÉSENTATIONS GRAPHIQUES POUR MESURES CATÉGORIELLES11
2.5 Les représentations graphiques pour mesures
catégorielles
Les mesures catégorielles s'analysent très simplement, il s'agit de dénombrer le nombre d'unités statistiques dans chaque catégorie. Graphiquement, on
représente alors ces catégories de façon proportionnelle an de visualiser leur
importance. Le graphique en barres s'obtient en utilisant le menu déroulant
"Graphes" puis "`Graphe en barres". Le camembert s'obtient avec le menu déroulant "Graphes" et l'option "Graphe en camembert". On voit qu'il y a plus
de réponses positives.
2.6 Les statistiques pour mesures catégorielles
Ce sont tout simplement les eectifs de chaque catégories, les fréquences et
les pourcentages correspondants. Pour les calculer, employer le menu déroulant
"Statistiques" puis l'option "`Résumés" puis "Distributions de fréquences". On
lit alors que 26 femmes sur 38 on expérimenté ce type d'inconvénients soit un
pourcentage de 68%. Ce résultat est tout simplement alarmant ! Comment est-il
possible qu'un tel problème, qui entrave fortement les performances, soit si peu
évoqué ?
2.7 Problèmes classiques concernant les proportions
2.7.1 Les problèmes de sondage
Avant de paniquer, il faut toujours commencer par comparer le résultat issu
de notre échantillon à d'autres résultats obtenus dans des contextes sinon similaires, du moins où la comparaison a du sens. Le jeu de données DIARRHH.xls
comprend les réponses de 233 hommes participant à cette épreuve à la même
question.
Exercice 1
Analyser ce jeu de données. Comparer le au résultat des femmes.
Quel avantage présente ce jeu de donnée sur le précédent ?
Avec les mesures catégorielles, il importe d'avoir une taille d'échantillon relativement grande an de pouvoir réaliser des calculs précis de pourcentages. Il
importe aussi de se demander s'il y a des non-réponses an de voir si notre
échantillon peut être considéré comme représentatif.
2.7.2 Extension à l'étude de plus de deux catégories
Nous avons jusqu'à présent étudié des cas ou seules deux catégories existaient. Le chier FFHANDI.xls contient la nature du handicap des licenciés
12CHAPITRE 2. ETUDE DESCRIPTIVE D'UNE MESURE CATÉGORIELLE (PROPORTIONS)
(1991) de la Fédération Française Handisport. Nous allons voir que l'analyse se
généralise sans diculté à plus de deux catégories.
Exercice 2
Utiliser les méthodes précédentes pour décrire la répartition des li-
cenciés dans ces catégories. Que signie la catégorie "Autres" ? N'y a-t-il pas une
catégorie dont la présence est surprenante ? Quel peut être l'intérêt de connaître
également la fréquence de ces diérents handicaps dans la population française ?
Voyons à présent dans le cadre d'une étude des pratiques sportives des camerounais (de 15 à 75 ans) la généralisation à un nombre plus important de
catégories : le sport pratiqué par les sondés. Le jeu de données cameroun1.xls
comprend les résultats d'un sondage eectué sur 395 individus. Ce sondage a
été réalisé dans la région de Yaoundé par une méthode de quotas basés sur le
sexe, l'âge et la répartition urbaine-rurale. La question exacte était :"Depuis le
début de l'année 2005, avez-vous pratiqué une ou plusieurs activités physiques
(oui/non). Si oui, quelles activités" avec une consigne de relance sur les pratiques auto-organisées (footing, gym à domicile. . .). Seulement quatre réponses
par sondé étaient possibles, il s'agit ici de la première citée.
Exercice 3
Analyser la variable EPS qui décrit l'activité sportive déclarée par
le sondé. En particulier réaliser le graphe en barres et le graphe en camembert.
Quel est le nouveau problème qui se pose ici ?
Dans cet exercice, le grand nombre de catégories rend dicile l'analyse.
Les solutions qui s'orent à nous sont soit de regrouper les catégories en sousensemble qui ont du sens (sport de combat, sport de ballon. . .) soit de créer une
catégorie "Autre" qui regroupe les catégories ayant les plus petits eectifs. An
de visualiser l'ensemble, on peut aussi utiliser un graphe particulier, le graphe
en points, qui n'est malheureusement pas disponible dans la version interactive
de R.
Remarque 4
Il est possible d'employer R dans une version langage de com-
mandes qui est beaucoup plus puissante. On tape alors des commandes dans la
fenêtre de script puis on clique sur le bouton "Soumettre".
Le résultat s'ache soit dans la fenêtre de sortie soit dans une fenêtre graphique.
Exercice 5
Soumettez successivement les 4 ordres suivants :
1. cameroun$APS
2. table(cameroun$APS)
3. dotchart(table(cameroun$APS))
4. dotchart(sort(table(cameroun$APS)))
Que font ces lignes de commandes ? Quelles sont les catégories les plus importantes ? Quelles catégories suggérez-vous de regrouper dans une catégorie
"Autres" ?
2.7. PROBLÈMES CLASSIQUES CONCERNANT LES PROPORTIONS 13
Exercice 6
Quelle marque utilisent les pratiquants de rollers ? Est-ce que ce
choix dépend de l'âge, du sexe, du type de pratique, de leurs motivations ? Une
étude par questionnaire (non publiée, A. Ferrand & S. Champely, CRIS) a été
menée auprès de 786 pratiquants lyonnais interrogés sur leur lieu de pratique
(skate park de gerland, parc de la tête d'Or, pont Moran. . .). La variable P11 du
chier ROLLERSONDAGE.xls indique la marque utilisée par le sondé. Etudier
cette répartition. Dans quelle mesure ce résultat décrit-il le marché français du
rollers ? Comment croiser cette information avec le type de pratique (agressif
vs. tness) ?
2.7.3 Les données ordinales
Les lyonnais sont-ils satisfaits de leurs piscines municipales ? Quels nouveaux
équipements aimeraient-ils utiliser ? Le service des sports a commandé au CRIS
(Vignal et al. [16]) un sondage des usagers des quatre piscines municipales d'hiver. Une technique de sondage aléatoire mixte (stratiée et systématique) a été
mise en place pendant une semaine. Le chier sauna.xls comprend les réponses
de 687 sondés à cette enquête. La question portait ici sur l'implantation d'un
sauna, était-elle : Trés souhaitée, Souhaité, Indiérent, Pas souhaité, Pas du
tout souhaitée ?
Exercice 7
Analyser ces souhaits en utilisant les méthodes précédemment dé-
crites. Quelle est la nouveauté concernant ces catégories et en quoi les graphes
ne sont pas très bons ? Comment regrouper habilement de telles catégories ?
Remarque 8
Pour modier l'ordre de catégories, il faut utiliser le menu dé-
roulant "Données", l'option "Gérer les variables dans le jeu de données actif",
puis "Réordonner une variable facteur".
Exercice 9
En reprenant l'étude des pratiquants de rollers, plusieurs questions
appelaient aussi des réponses ordinales. Ces questions étaient : Pour quelles
raisons faites-vous du roller : (1) pour m'entretenir physiquement (variable
M1PHYS) , (2) parce que c'est un moyen de transport (variable M2TRANS)
, (3) pour me faire peur (variable M5PEUR), (4) pour m'exprimer (variable
M6EXPRIM), (5) pour rencontrer des gens (variable M12RENC). Les réponses,
échelonnées de 1 (pas du tout important pour moi) à 5 (très important pour moi)
constituent des
échelles de Likert.
Etudier les réponses à ces 5 questions. Comment suggéreriez-vous de regrouper simplement les catégories ? A votre avis, quelles informations serait-il
intéressant d'exploiter pour mieux saisir les motivations des pratiquants ? Noter
la présence de
données manquantes
peut-il nuire à l'analyse ?
pour la variable M6EXPRIM ; en quoi ceci
14CHAPITRE 2. ETUDE DESCRIPTIVE D'UNE MESURE CATÉGORIELLE (PROPORTIONS)
Chapitre 3
Etude descriptive d'une
mesure numérique (moyenne
et . . .)
3.1 La lecture du jour : Rousseeuw [6]
L'article de Rousseeuw [6] est une introduction à une approche non traditionnelle des mesures numériques. A près des décennies de description et d'inférence
reposant sur la moyenne et l'écart-type dans un contexte particulier dit de la loi
normale, on s'aperçoit qu'en dehors de ce contexte ces techniques fonctionnent
mal, en particulier en présence de points extrêmes, et qu'il faut donc chercher
des méthodes statistiques qui soient robustes.
Cet article se limite volontairement à des méthodes simples basées sur la
notion de médiane que nous reprendrons et confronterons aux approches traditionnelles.
3.2 La situation : des données numériques
La noradrénaline est un médiateur chimique qui peut constitué un bon indicateur de la récupération des athlètes eectuant des eorts intenses (Sagnol
et al. ??). Le chier PLASMA.xls contient les concentrations en noradrénaline
dans le plasma de six coureurs le matin de l'épreuve (triathlon de 10h) (dites
valeurs basales et celles prises le lendemain. Il s'agit de voir s'ils ont complètement récupéré. Nous allons nous limiter ici dans un premier temps à l'étude des
valeurs basales.
Le chier PLASMA.xls comporte donc 2 colonnes : "basale" et "lendemain"
pour 6 lignes de valeurs. Il faut commencer par importer ce chier dans le logiciel
R selon la procédure dénie en 2.3
15
2.6
3.2
●
●
●
2.0
plasma$basale
16CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .)
●
1
●
●
2
3
4
5
6
Index
2.0
2.4
2.8
3.2
Noradrénaline
3.1 Graphe indexé et ligne de points pour les valeurs basales de noradrénaline
Fig.
3.3 Représentations graphiques pour données numériques
3.3.1 Le graphe indexé
Le premier graphe disponible dans Rcmdr est le graphe indexé. Il indique
en abscisses le numéro de la mesure et en ordonnées sa valeur. On obtient ce
graphe en utilisant le menu déroulant "Graphes" et l'option "Graphe indexé".
Les mesures basales (gure 3.1) s'échelonnent généralement de 2.0 à 3.2, cette
dernière valeur semblant toutefois relativement éloignée des autres (un point
extrême ?).
Remarque 10
L'utilisation du numéro de mesure n'est pas vraiment utile et il
est sans doute aussi intéressant de placer toutes les valeurs sur une même ligne.
Ceci doit se faire en utilisant la commande suivante dans la fenêtre de script et
en soumettant :
stripchart(plasma$basale,xlab="Noradrénaline")
1
Le problème étant que les valeurs égales sont parfois superposées , pour les empiler on peut utiliser :
stripchart(plasma$basale,xlab="Noradrénaline",method="stack")
Exercice 11
Construire ces deux graphiques (graphe indexé et la ligne de points)
sur les valeurs du lendemain. Que dire par rapport au graphe précédent ?
1 Cen'est
pas le cas en l'espèce
3.3. REPRÉSENTATIONS GRAPHIQUES POUR DONNÉES NUMÉRIQUES17
3.3.2 Le graphe de dispersion
Dans l'exemple précédent, il y a très peu de données, on cherche donc à
les représenter individuellement. En revanche, lorsque le nombre de données est
plus grand, il convient d'employer d'autres techniques. Nous allons travailler
sur le chier ASVELSONDAGERA.xls, qui contient les réponses de supporters
rhône-alpins de l'équipe de basket de Villeurbanne. Elle correspondent à une
étude sur la délité de ces supporters (A. Ferrand et S. Champely, CRIS, article
soumis). Les supporters ont été choisis sur la base d'un sondage aléatoire simple
(basé sur les numéros de place). La taille de l'échantillon est de ? ? ?, le taux de
non-réponse est faible. Nous allons dans un premier temps nous limiter à l'étude
de l'âge de ces supporters (variable Age).
Exercice 12
Réaliser le graphe indexé, une ligne de points et une ligne de points
empilés sur ces données. Lequel de ces graphe est le plus intéressant ?
An de résumer les aspects essentiels du jeu de données, la boîte de dispersion
indique la valeur centrale par un trait gras, indique l'étendue des données par
(1) une boîte et (2) des moustaches et (3) des points2 .
Ce graphique est disponible par le menu déroulant "Graphes" et l'option
"Boîte de dispersion". On voit (gure 3.2) que la valeur typique est située entre
20 et 25 ans et que les valeurs supérieures à 60 sont détaillées.
3.3.3 L'histogramme
L'histogramme est une technique qui consiste à regroupe les mesures en un
certain nombre de catégories et à réaliser un graphe en barres le long d'une
échelle numérique indiquant ces catégories.
Le menu déroulant "Graphes" donne accès à l'option "Histogramme". Ce
graphique est surtout intéressant lorsque le nombre de mesures est important
(n=50). Il permet alors de décrire la concentration des données. Avec un faible
nombre de valeurs, il devient très instable en fonction du choix des intervalles
dénissant les groupes.
L'histogramme a ici une forme dite dissymétrique, les données sont nombreuses de 10 à 30 ans, puis avec une moindre concentration, les données s'étalent
sur la droite.
3.3.4 Le graphe quantile-quantile
Ce graphe cherche à confronter l'histogramme des données à une forme prototypique, celle de la loi normale3 dite aussi courbe en cloche. Il est très important
de déterminer si les données suivent approximativement cette forme car les procédures statistiques que nous verrons par la suite sont généralement basées sur
cette hypothèses. Lorsque les données suivent la loi normale, les points sont situés exactement sur une droite. Toutefois, un écart est inévitable, l'écart normal
2 Nous verrons plus tard la signication précise
3 Beaucoup de choses plus loin à ce sujet
des ces trois niveaux de mesure d'étendue
18CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .)
50
10
30
Age
70
●
●
●
●
●
●
●
●
●
10
20
30
40
50
60
70
70
50
10
30
asvel$Age
100
50
0
Frequency
150
Age
10 20 30 40 50 60 70
asvel$Age
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●●●
−3 −2 −1
0
1
2
●
3
norm quantiles
3.2 Ligne de points empilés, boite de dispersion, histogramme et graphe
quantile-quantile pour l'âge des supporters de l'ASVEL
Fig.
3.4. STATISTIQUES DE CENTRALITÉ
19
étant symbolisé par deux courbes en pointillées sur le graphe. On constate sur
cet exemple que les données sont peu compatibles avec l'hypothèse de normalité,
la forme des points étant franchement courbe, ce qui a à voir avec la dissymétrie
observée sur l'histogramme.
3.4 Statistiques de centralité
Les graphiques permettent de repérer les aspects essentiels de la distribution
(concentration) des données. Il convient ensuite de passer à une description plus
précise basée sur des calculs que l'on appelle des statistiques.
Les statistiques servent à décrire un aspect précis des mesures. Nous allons
commencer par des statistiques qui s'attachent à décrire la mesure typique de
l'échantillon, ou pour le dire autrement, sa localisation.
La statistique la plus classique pour ce faire est la moyenne, il s'agit de la
somme des mesures divisée par leur nombre. Le menu déroulant "Statistiques"
avec l'option "Résumés" puis "Statistiques descriptives" donne pour les valeurs
basales de noradrénaline une moyenne de M = 2.384 .
La moyenne n'est pas la seule façon de quantier la centralité, la notion
de médiane est également importante : la médiane est une valeur telle que la
moitié des mesures lui sont inférieures (et l'autre moitié supérieures). On trouve
ici M d = 2.25.
La diérence est ici faible entre ces deux statistiques de centralité. Ce n'est
pas toujours le cas. En particulier, lorsqu'il existe des mesures extrêmes (cf la
lecture du jour [6]) ou bien une dissymétrie des données, c'est-à-dire que les
mesures s'écartent plus d'un côté de la valeur centrale que de l'autre, moyenne
et médiane peuvent être très diérentes. Il convient alors de privilégier la médiane qui est plus robuste, c'est-à-dire qu'elle est moins inuencée par les valeurs
exceptionnelles.
Exercice 13
Calculer la moyenne et la médiane pour les valeurs du lendemain.
Exercice 14
Pour les supporters de l'ASVEL, calculer la médiane et la moyenne
de la distance entre leur domicile et la salle de l'Astroballe. La diérence est-elle
importante ? Réaliser un histogramme de ces données. Quel est le problème ?
3.5 Statistiques de variabilité
Au delà de la notion de centralité, la statistique accorde une importance
toute particulière à la notion de variabilité. Il s'agit de prendre conscience de la
variabilité naturelle des mesures et du fait que la relation ne sont pas déterministes. Il existe toujours autour de la mesure typique des écarts, la statistique
propose justement de les quantier.
La façon la plus simple de quantier la variabilité est l'étendue, il s'agit
de l'écart entre la valeur maximum et la valeur minimum du jeu de données.
4 On
note parfois la moyenne y
20CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .)
On trouve pour la noradrénaline 1.94 et 3.29, ce qui conduit à une étendue
de 1.35cm. L'atout majeur de cette statistique est la simplicité mais elle est
malheureusement absolument pas résistante. Pour cette raison, on lui préfère
l'écart inter-quartiles.
Les quartiles sont des généralisations de la médiane, il s'agit cette fois de
découper les données en 4 sous-ensembles (et non pas 2) de même eectifs : un
quart des données est ainsi inférieur au premier quartile, ici Q1 = 2.0475, une
moitié au deuxième quartile qui n'est autre que la médiane et trois quart au
troisième quartile ici Q3 = 2.475. Les quartiles sont beaucoup plus résistants
que les extrémités5 , aussi l'étendue inter-quartiles donne une indication stable
de la variabilité des données et plus précisément de sa partie centrale.
La statistique de variabilité la plus classique est l'écart-type. Elle n'est cependant ni la plus facile à calculer ni la plus résistante. On doit pour l'utiliser à
bon escient vérier sur les graphiques que la distribution est symétrique et qu'il
n'y a pas de données extrêmes. L'écart-type est en l'espèce égal à SD = 0.496.
Cette quantité indique la façon dont les données s'écarte usuellement de la valeur
moyenne, il s'agit en quelque sorte d'une moyenne des écarts.
Pour ceux qui aiment les formules 15
Si les données sont
y1 ,. . .,yn , l'écart-
type est égal à
s
SD =
où
y
1X
(yi − y)2
n i
est la moyenne.
Une version robuste de l'écart-type est le M AD (median absolute deviation),
elle s'obtient en employant la commande suivante dans la fenêtre de script et
en soumettant :
mad(plasma$basale)
On trouve ici M AD = 0.393 moins élevé que l'écart-type, la contribution de
la valeur 3.29 au calcul étant minimisée.
Exercice 16
Calculer les quatre statistiques de variabilité pour les valeurs du
lendemain.
Remarque 17
On présente très souvent les résultats d'un échantillon de me-
6 :
sures numériques sous la forme
M ± SD.
Nous avons donc également la version robuste :
M d ± M AD.
5 Bien qu'avec une taille d'échantillon aussi petite que n=6, on ne puisse avec qu'une donnée
extrême du même côté
6 qui n'a de sens que pour des données symétriques
3.6. POUR ALLER PLUS LOIN AVEC LES DONNÉES NUMÉRIQUES 21
3.6 Pour aller plus loin avec les données numériques
An de savoir quelles statistiques de centralité et de variabilité il est préférable d'utiliser, on doit connaître la forme des données. Trois aspects sont
essentiels, la forme, la multi-modalité et les mesures extrêmes.
3.6.1 La notion de symétrie
Exercice 18
Reprendre la variable "Dist"' du jeu de données ASVELSONDA-
GERA.xls.
Réaliser un histogramme de ces données
Recommencer en choisissant 20 comme nombre de classes
est-ce que cet histogramme à une courbe en cloche ?
comment décrire la forme de cet histogramme ?
L'étude de symétrie essaie de préciser comment s'exerce la variabilité, c'està-dire la façon dont les mesures s'écartent de la valeur centrale. Les mesures
peuvent en eet s'en écarter de la même façon à gauche et à droite, un peu
comme un miroir, on parle alors d'échantillon symétrique ou bien s'écarter de
façon plus étendue dans un sens, on parle alors d'échantillon dissymétrique.
Les tests physiques et les mesures anthropométriques sont généralement symétriques. En revanche, les mesures telles que le salaire des individus, la durée
de vie d'un équipement sont souvent dissymétriques. La symétrie se détecte sur
les graphiques, mais aussi selon la position des deux quartiles par rapport à la
médiane.
Si la distribution est dissymétrique, la moyenne est généralement attirée du
côté le plus étendu et donne donc une mesure faussée de la valeur typique. De
même, l'écart-type, en ne distinguant pas les écarts bien diérents de chaque
côté de la moyenne constitue un compromis qui n'est pas satisfaisant dans ce
type de situation. On leur préférera donc la médiane et les quartiles.
Remarque 19
An de résoudre le problème des distributions dissymétriques,
on emploie souvent la technique des transformations. Il s'agit de trouver une
formule mathématique qui transforme la variable dissymétrique en une nouvelle
variable plus symétrique. L'analyse statistique est alors plus facile. En revanche,
on perd l'avantage des unités de mesures originelles souvent mieux connues. Les
transformations les plus connues sont le logarithme, la racine carrée et l'inverse.
Exercice 20
Pour les données de distances entre l'astrovalle et le domicile des
supporters de l'ASVEL, utiliser le menu déroulant "Données" et l'option "Gérer
les variables dans le jeu de données actif" puis "Calculer une nouvelle variable".
Dans la fenêtre de dialogue, en tant que variable existante indiquer : "Dist", en
tant que nom de la nouvelle variable indiquer : "logdist" et en tant qu'expression
à calculer : "log(Dist)".
Réaliser un histogramme sur la nouvelle variable : "logdist". Que constatezvous ?
22CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .)
Exercice 21
Le jeu de données TRANSFERTS.xls contient les montants (en
Francs 1999) des 93 transferts de la Ligue 1 de football.
Réaliser un histogramme de ces données
Recommencer en choisissant 20 comme nombre de classes
Comment décrire la forme de cet histogramme.
Utiliser le menu déroulant "Données" et l'option "Gérer les variables dans le
jeu de données actif" puis "Calculer une nouvelle variable". Dans la fenêtre
de dialogue, en tant que variable existante indiquer : "Montant", en tant que
nom de la nouvelle variable indiquer : "TransLog" et en tant qu'expression à
calculer : "log(Montant+1)".
Réaliser un histogramme sur la nouvelle variable : "Translog". Que constatezvous ?
Pourquoi avoir utiliser la formule
log(x + 1)
plutôt que tout simplement
log(x) ?
3.6.2 la multi-modalité
Exercice 22
Le chier ROLLERS.csv contient le prix de rollers (en Francs
2000) pour 224 pratiquants de la région lyonnaise.
Réaliser un histogramme de ces données.
Recommencer en choisissant comme nombre de classes : 15.
Analyser la forme de cet histogramme. Que constatez-vous ?
Que pensez-vous de la notion de valeur typique dans ce contexte ?
Il arrive que les données ne soient pas regroupées autour d'une unique valeur
centrale mais qu'il existe plusieurs groupes. On parle alors de multimodalité.
Dans ce cas, chaque groupe devrait faire l'objet d'une description quantiée,
mais cette analyse (dite analyse de mélange) est complexe et ne sera pas envisagée. On se contentera de descriptions verbales.
3.6.3 Les données extrêmes
Il est essentiel de repérer les données diérentes de l'ensemble des mesures,
soit an de corriger des erreurs, soit an de les étudier, car par leur marginalité,
elles peuvent souvent être riches d'enseignement.
Comme le dit l'article de Rousseew ??, pour une donnée x la pratique habituelle de la standardisation :
x−M
z=
SD
est viciée par les problèmes de robustesse des deux statistiques employées. Les
points extrêmes peuvent alors se trouver cachés. Il vaut donc mieux employer :
z0 =
x − Md
M AD
et comparer cette valeur à un seuil de 2.5.
3.6. POUR ALLER PLUS LOIN AVEC LES DONNÉES NUMÉRIQUES 23
En reprenant les données de noradrénaline basale, on a donc z = 3.29−2.376667
=
0.4958898
=
2.65
.
On
peut
déjà
conster
sur
ce
petit
exemple
cet
eet
1.84 et z 0 = 3.29−2.25
0.392889
de robustesse.
Remarque 23
La boîte de dispersion employer une méthode un peu diérente
et permet de les repérer visuellement.
24CHAPITRE 3. ETUDE DESCRIPTIVE D'UNE MESURE NUMÉRIQUE (MOYENNE ET . . .)
Chapitre 4
Comparaison descriptive
d'une moyenne à une norme
4.1 La lecture du jour : Kotrlik & Williams [7]
Cet article présente les motivations essentielles pour l'incorporation de mesure de tailles d'eet (eect size ) dans les articles publiés à côté des classiques
tests de signicativité, en particulier le fait qu'il constitue une mesure directe
de ce qui intéresse le chercheur : l'amplitude concrète du phénomène observé.
Les mesures de taille d'eet principales sont données pour les situations
les plus classiques, nous les retrouverons tout au long de ce cours. Enn, des
valeurs conventionnelles pour juger qualitativement de la taille de ces eets sont
également présentées.
La présentation des tailles d'eet est encouragée par le très inuent manuel de l'American Psychological Association et peut maintenant être considérée
comme une norme de publication.
4.2 La situation de comparaison à une norme
G. Coquelin lors d'un stage de M2PPMR à l'AS Gien Football est responsable de la catégorie 15 ans a réalisé une série de tests physiques sur ses joueurs
an de réaliser un état des lieux. Le chier COQUELIN.xls comporte donc pour
16 individus la mesure de leur endurance vitesse (test 4*10 en navette), de
leur puissance aérobie (VMA, test Vameval), de leur détente verticale et des 5
enjambées.
Nous allons travailler sur les valeurs de VMA. On peut représenter graphiquement les données à l'aide du graphe indexé. On constate que la majorité des
résultats vont de 14.5 à 17.0.
Il est très intéressant de posséder une valeur de comparaison an de pouvoir
situer des valeurs. Une première méthode est de disposer d'une "norme", c'est25
26CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME
à-dire d'une valeur moyenne calculée sur une population de référence. Le plus
souvent, il s'agit de la population générale correspondante (même âge, même
sexe...). Mais en l'espèce, il existe une valeur mesurée sur l'élite de l'INF Clairefontaine pour des joueurs du même âge. La valeur moyenne de l'élite est de
17.35 pour la VMA. Il s'agit donc de voir si le groupe de joueurs est éloigné
des caractéristiques de l'élite (pour choisir éventuellement un type spécique de
travail).
4.3 Représentation graphique et comparaison à
la norme
Avec n=16 mesures, l'histogramme n'est pas le graphique le plus adapté. On
peut alors hésiter entre le graphe indexé qui donne les valeurs individuelles, la
boîte de dispersion, le graphe quantile-quantile voire la ligne de points1 .
Il s'agit ensuite d'ajouter au graphique une ligne verticale ou horizontale
symbolisant la situation de la norme. Ceci ne peut être fait qu'en entrant au
clavier une ligne de commandes dans la fenêtre de script et en la soumettant.
Ainsi,
après avoir tracé un graphe indexé, une boite de dispersion ou un graphique
quantile-quantile, il faut taper la ligne : abline(h=17.35,col="red",type=2)
après avoir tracé un histogramme, il faut taper la ligne : abline(v=17.35,col="red",type=2)
Remarque 24
Le graphique le plus adapté est sans doute la ligne de points,
elle demande de soumettre deux lignes de commandes dans la fenêtre de script :
stripchart(coquelin$VMA,method="stack",xlab="VMA")
abline(v=17.35,col="red",type=2)
Quel que soit le graphe employé (cf gure 4.1), la conclusion est la même,
il est très rare que les joueurs du groupe aient une puissance équivalente à la
norme dénie.
Exercice 25
Les données du chier DAUCHEZ.xls ont été réunies par B. Dau-
chez (M2PPMR) sur un groupe de joueurs et joueuses de tennis. On s'intéressera en particulier au résultat du test navette de Luc Léger. La norme fournit
par la FFT est de 12.75 pour ce test.
réaliser les graphiques
Quel est le graphique le plus adapté à votre sens ?
Reprenez ce graphique et ajoutez la norme de la FFT.
Qu'observez-vous ?
Pouvez-vous trouver dans le chier de données des explications aux valeurs
2
éloignées de la norme ?
1 qui malheureusement n'est pas directement disponible dans l'interface
2 Utiliser l'option graphique nuage de points avec l'âge et le sexe
graphique
5
10
14.5 15.5 16.5 17.5
VMA
coquelin$VMA
14.5 15.5 16.5 17.5
4.3. REPRÉSENTATION GRAPHIQUE ET COMPARAISON À LA NORME27
15
3
2
1
0
Frequency
4
Index
14
15
16
17
coquelin$VMA
18
14.5
15.5
16.5
17.5
VMA
4.1 Graphe indexé, Boîte de dispersion, histogramme et ligne de points sur
les données de VMA de Coquelin. La norme fournie par l'élite de Clairefontaine
est indiquée par une ligne rouge en pointillés
Fig.
28CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME
4.4 La mesure de la taille de l'eet
An de quantier la comparaison, il s'agit de mesurer l'éloignement de notre
échantillon de mesures à la norme. La norme constitue ce qu'on appelle en
statistique une hypothèse. L'éloignement de l'échantillon est appelé un eet qui
est en quelque sorte l'eet de l'entraînement et des capacités de ce groupe par
rapport à l'entraînement et aux capacités du groupe de l'élite. Il convient donc
de mesurer l'importance de cet eet grâce à une statistique appelée taille d'eet
(et notée ES : eect size).
On distingue la taille d'eet absolue :
M − norme
et la taille d'eet relative3
d=
M − norme
.
SD
On obtient ici4 comme taille d'eet absolue : 15.63312 − 17.35 = −1.71688
et comme taille d'eet relative d = (15.63312 − 17.35)/0.9367441 = −1.832816.
La taille d'eet absolue peut s'interpréter directement dans les unités originelles. Il s'agit de bien connaître le test physique en question et de décider
l'importance pratique d'une diérence de VMA de 1.7.
La taille d'eet relative s'émancipe des unités originelles et a l'avantage de
permettre de comparer des mesures eectuées dans des unités diérentes ou des
unités moins connues. Comme guide, il a été proposé par Cohen[3] un classement
qualitatif de ces tailles d'eet sur la base de
d = 0.2 constitue un eet faible,
d = 0.5 un eet moyen et
d = 0.8 un eet fort.
L'eet ainsi mesuré est incontestablement un fort eet.
Exercice 26
Pour les données des joueurs de tennis de Dauchez, calculer l'eet
par rapport à la norme de la FFT.
Exercice 27
C. Ferrand (CRIS) s'intéresse aux désordres alimentaires (ano-
rexie, boulimie...) chez des jeunes lles pratiquant des activités sportives avec
des exigences esthétiques fortes : natation synchronisée et gymnastique rythmique. Un groupe de contrôle de jeunes lles non sportives est également mesuré. Parmi une batterie de tests, nous retiendrons le test d'estime de soi, qui
mesure l'opinion qu'un individu a de lui même. Ce test prend des valeurs allant
de 10 (opinion très mauvaise) à 40 (opinion excellente). Dans la population
française, la valeur moyenne de ce test est de 32.88.
Importer le jeu de données ALIMENTATION.xls, l'estime de soi correspond
à la variable ES. An de distinguer les trois populations (natation synchronisée,
3 Il est bien évident que
4 en tapant directement
le calcul avec des statistiques robustes est intéressant
dans la fenêtre de script et en soumettant la commande
4.5. LES TAILLES D'EFFET POUR LES PROPORTIONS
29
gymnastique rythmique et sportive et contrôle), lors du calcul des statistiques
descriptives, on précisera, en utilisant le bouton "Résumer par groupes" la variable nomination qui eectuera les calculs selon les trois groupes.
Calculer la taille d'eet relative des jeunes lles non sportives par rapport
à la population générale.
an de réaliser un graphique limitée aux jeunes lles non sportives (groupe
GT), il faut sélectionner un sous-ensemble d'unités statistiques. La procédure consiste à utiliser le menu déroulant "Données", l'option "Jeu de
données actif", "Sous-ensemble...", dans "Expression de sélection" taper :
Nomination=="GT" et dans "Nom du nouveau tableau
per : alimentationGT. On peut alors analyser ce nouveau
de données" tatableau. Réaliser
un histogramme de ces valeurs d'estime de soi et indiquer la norme générale de 32.88.
Idem avec une ligne de points empilés.
En fait, on remarque souvent que les femmes et les jeunes lles ont une
estime de soi plutôt faible. On se servira donc pour calculer les tailles d'effet relatives des deux autres groupes non pas de la norme de la population
générale mais bien plutôt de celle de ce groupe de contrôle. Calculer les
deux tailles d'eet correspondantes. Qu'en dites-vous ?
4.5 Les tailles d'eet pour les proportions
En ce qui concerne les proportions, il est aussi possible de calculer des tailles
d'eet par rapport à une hypothèse. Ainsi en ce qui concerne les joueurs de
tennis, il est souvent remarqué qu'il existe beaucoup de gauchers parmi eux.
Dans le groupe de Dauchez, on en repère ainsi 3 sur 10. Or dans la population
française, il y a environ 10% de gauchers.
Il existe plusieurs méthodes pour calculer une taille d'eet, les deux plus
classiques étant simplement de calculer la diérence entre la proportion observée
p et la norme
p − N orme.
ou le rapport entre ces deux proportions5
p
.
N orme
Nous obtenons dans le cas présent une diérence de 0.30 − 0.10 = 20% soit
20% de gauchers en plus dans l'échantillon ou un rapport de 0.30
0.10 = 3, soit trois
fois plus de gauchers dans l'échantillon que dans la population française.
Exercice 28
Les catégories dans les diérents sports sont dénies en fonction
de l'âge (poussins, benjamins. . .). Or, à l'intérieur d'une même catégorie, une
diérence d'un an est considérable en termes de potentiel physique. Il est donc
possible que le fait d'être né à la n de l'année soir un désavantage pour être
5 la
plus grande étant généralement employée comme numérateur dans le rapport
30CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME
sélectionner au meilleur niveau et ensuite bénécier des meilleures conditions et
donc nalement avoir une meilleure progression. Ainsi la probabilité d'être dans
le quatrième trimestre de l'année doit être normalement de
25%.
En revanche,
si cet eet d'âge joue la proportion observée dans le haut niveau doit être sensiblement plus basse. Une étude de 1989 sur la LNH canadienne montre que sur
388 joueurs, 69 sont nés durant le dernier trimestre. Calculer le pourcentage
correspondant ainsi que les tailles d'eet suivant les deux méthodes.
Remarque 29 Une autre possibilité nettement plus complexe est présentée par
Cohen ?? qui est pour comparer p à la norme N orme d'employer la formule :
√
√
ES.h = 2(arcsin( p) − arcsin( N orme)).
Pour réaliser ce calcul avec les données des tennisman de Dauchez à l'aide de
Rcmdr, choisir le menu déroulant "Outils", l'option "Charger des packages" et
6
choisir le package "pwr" . Dans la fenêtre de script, soumettez la commande :
ES.h(3/10,0.10)
On peut comparer cette valeur aux seuils conventionnels suivants :
ES.h = 0.2
ES.h = 0.5
ES.h = 0.8
constitue un eet faible,
un eet moyen et
un eet fort.
L'eet observé est donc moyen.
4.6 La notion de variation d'échantillonnage
Nous savons à présent calculer les performances moyennes d'un groupe et
mesurer l'écart à une norme. Toutefois, et c'est l'objet de la statistique inférentielle, on souhaite souvent généraliser les résultats obtenus sur un groupe à un
ensemble plus grand pour montrer par exemple l'eet d'une méthode d'entraînement au delà de notre groupe.
Ceci peut être fait si (1) notre groupe est représentatif de la population à
laquelle nous souhaitons étendre nos conclusions, (2) nous prenons en compte
le fait que notre échantillon n'est qu'un exemple parmi d'autres échantillons qui
auraient pu survenir, c'est ce qu'on appelle les variations d'échantillonnage et
(3) nous savons caractériser les variations d'échantillonnage.
L'exemple de la proportion de gauchers est ainsi très intéressant pour sensibiliser aux notions que nous allons développer longuement dans le chapitre
suivant. Le groupe de joueurs de tennis comportait 3 gauchers sur 10, mais un
autre groupe aurait pu comprendre 0, 1, 2, 3, 4 gauchers (voir plus). On voit
donc que la statistique calculée varie d'un échantillon à l'autre.
6 Il se peut que ce package ne soit pas installer, installer-le suivant la procédure dénie en
A.3.1
4.6. LA NOTION DE VARIATION D'ÉCHANTILLONNAGE
31
Toutefois, on peut de façon intuitive sentir que (1) si la proportion de gauchers est importante chez les joueurs de tennis la statistique prendra des valeurs plus élevées donc , à l'inverse, la valeur de la statistique obtenue d'après
l'échantillon doit nous donner une bonne estimation de la valeur réelle dans la
population de joueurs et (2) si notre échantillon de joueurs de tennis est plus
grand, le calcul de la proportion devrait être plus précis.
32CHAPITRE 4. COMPARAISON DESCRIPTIVE D'UNE MOYENNE À UNE NORME
Chapitre 5
Généraliser les résultats
obtenus avec une proportion
5.1 Comment généraliser : l'inférence statistique
Le mécanisme de généralisation des résultats est appelé en statistique inféCe mécanisme repose sur une idée très importante, l'échantillon
d'unités statistiques que nous observons n'est qu'un échantillon parmi d'autres
que nous aurions pu obtenir dans une population plus générale que nous souhaitons décrire.
rence statistique.
Or si cet échantillon est aléatoire, c'est-à-dire s'il a été sélectionné sur la base
d'un tirage au sort, ou du moins s'il peut être assimilé à un tel mécanisme de
sélection, l'échantillon ressemble à la population dont il est issu, il est représentatif. On peut donc estimer une proportion de la population (la proportion
de gauchers par exemple) à partir de la proportion que nous observons dans
l'échantillon.
Bien plus que cela, la notion de tirage au sort fait qu'on peut dénir par
des probabilités, les résultats qui peuvent être issus de la population, en particulier, la répétition d'échantillonnages donne naissance à une répétition de calculs
d'une même statistique (ex : une proportion ou une moyenne) qui appelle la distribution d'échantillonnage. Cette distribution d'échantillonnage décrit l'erreur
que l'on commet en utilisant la proportion de l'échantillon à la place de la proportion de la population. Cela permet de dénir ce qu'on appelle un intervalle
de conance.
Une expérience concrète va permettre de comprendre ce qui se passe lorsqu'on utilise un échantillon. Elle servira de base à une courte discussion sur
un modèle de probabilité très important : le modèle binomial qui permettra
de généraliser les observations faites sur l'expérience concrète à n'importe quel
problème concernant des proportions
33
34CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION
5.2 La situation : L'expérience des smarties
Les boîtes de smarties contiennent des bonbons de plusieurs couleurs. Nous
allons nous intéresser à la proportion de smarties de couleur rouge dans l'ensemble des bonbons produits par cette marque.
Bien sûr, on ne peut mesurer l'ensemble des boîtes, il s'agit donc dans un
premier temps de compter le nombre total de smarties dans la boite, que nous
noterons n, par exemple j'observe n = 32 smarties dans la mienne puis le nombre
de smarties rouges que nous noterons y , j'obtiens personnellement y = 7. Il y a
donc une proportion de p = ny smarties rouges, soit pour ma part : 7/32 = 22%.
Lorsque nous réalisons une étude, nous ne pouvons disposer que d'un seul
échantillon de mesures. Nous devons donc généraliser les résultats à partir de
cet unique échantillon. Pour ce faire, le statisticien part de la question suivante :
que se passerait-il si je disposais d'autres échantillons et que je recommençais le
?
Ici nous sommes dans une situation particulière car il est possible d'ouvrir
une autre boîte de smarties et de recommencer. On peut observer dans le chier
SMARTIES.xls le résultat de l'ouverture de 15 boîtes par un groupe d'étudiants.
Le résultat de chaque échantillon est résumé par la proportion de smarties rouges
observée.
même calcul
Exercice 30
Réaliser un histogramme de la variable
p du chier SMARTIES.xls
qui contient les proportions calculées sur 15 boîtes. Décrivez cet histogramme.
Il reste maintenant à savoir ce qui se passerait si on pouvait multiplier (50,
100, 1000) de tels échantillonnages. Les modèles probabilistes permettent de
simuler de telles situations c'est pourquoi il est nécessaire de maîtriser quelques
notions élémentaires de probabilités an de bien comprendre comment on peut
généraliser les résultats d'une expérience telle que celle des smarties.
5.3 Notions de probabilités
5.3.1 Expérience aléatoire et probabilités
Lorsque nous ouvrons une boîte de smarties, nous ne savons pas exactement
combien nous allons trouver de smarties rouges. Cependant, la proportion de
smarties de cette couleur est maîtrisée par le fabriquant, par conséquent, si on
ouvre un grand nombre de boîtes, on sent intuitivement que l'on va se rapprocher de cette proportion générale. C'est cette intuition que formalisent les
probabilités.
Dénition 31
On parle d'expérience aléatoire, s'il est impossible d'en pré-
voir l'issue mais qu'en revanche, sur un grand nombre de répétitions, on peut
connaître la fréquence avec laquelle les diérents résultats apparaitront.
Le livre l'homme-dé de Luke Rhinehart décrit l'expérience suivante : Je ramassais le dé en déclarant : " (A) Si c'est un, trois ou cinq, je vais me coucher ; (B)
5.3. NOTIONS DE PROBABILITÉS
35
si c'est deux je descends demander à Jake la permission d'essayer de revioler
Arlène ; (C) si c'est quatre ou six, je veille pour continuer à rééchir à tout ça."
Quels sont les résultats possibles ? Á quels résultats correspond l'événement :
(C) veiller un peu pour continuer à rééchir à tout ça ? Peut-on prévoir sur un
jet de dé si cet événement se réalisera ? Que se passe-t-il à votre avis si on jette
le dé un millier de fois ?
Nous allons simuler informatiquement le résultat : Taper les lignes suivantes
dans la fenêtre de script et soumettez les successivement.
c("A","B","A","C","A","C")
sample(c("A","B","A","C","A","C"),size=1,replace=T)
sample(c("A","B","A","C","A","C"),size=10,replace=T)
table(sample(c("A","B","A","C","A","C"),size=10,replace=T))
table(sample(c("A","B","A","C","A","C"),size=10000,replace=T))/10000
Dénition 32
La probabilité d'un événement est la proportion de fois où il se
réalise dans une série longue d'une même expérience aléatoire. Une probabilité
est toujours comprise entre 0 et 1.
Exercice 33
15%.
Supposons que la probabilité pour un smarties d'être rouge est de
Si j'ouvre deux boîtes de 30 smarties quelle proportion de smarties rouges
devrais-je trouver ? Si j'ouvre 1000 boîtes ?
5.3.2 Notion de variable aléatoire (entière)
En fait, plutôt que de calculer des probabilités sur des événements, on associe
très souvent des valeurs aux résultats des tirages. Ainsi, pour les smarties, si
nous nous intéressons à la couleur d'un seul, on peut décider que s'il est rouge
on lui aectera la valeur 1 et s'il ne l'est pas la valeur 0.
Dénition 34
On parle de
variable aléatoire lorsqu'on associe à des résultats
x (ces valeurs peuvent être numériques ou
d'expérience aléatoire des valeurs
non, nous nous limiterons dans ce chapitre aux valeurs entières). La liste des
probabilités associées aux résultats possibles d'une variable aléatoire est appelée
loi de probabilités. On
X prenne la valeur x.
note
P r(X = x)
la probabilité qu'une variable aléatoire
Avec l'exemple smarties on a donc1 P r(X = 1) = 0.15 et P r(X = 0) = 0.85.
5.3.3 Représentation graphique d'une variable aléatoire
entière
Le système de la draft NBA consiste chaque année pour les diérentes franchises à recruter les jeunes joueurs les plus talentueux, provenant soit des équipes
universitaires américaines soit, ce qui n'est plus rare maintenant, des meilleures
1 voir
exercice 33
36CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION
2
4
6
X
Fig.
0.15
0.00
Prob
0.15
Système 2
0.00
Prob
Système 1
8
10
2
4
6
8
10
X
5.1 Graphes de probabilités pour les 2 systèmes de la draft NBA
équipes européennes. An d'équilibrer la compétition, il a été décidé par les
instances de la NBA de laisser aux franchises les plus mal classées l'année précédente la priorité du choix.
Pour déterminer l'équipe s'octroyant le premier tour de draft, on aecte le
numéro 1 à la mieux classée2 jusqu'à 11 pour la dernière. Plusieurs systèmes
aléatoires se sont succédés, nous n'en considérerons ici que deux :
Le premier (datant de 1985) repose sur un simple tirage au sort des
1
onze numéros. Il s'agit donc d'un système équiprobable ( 11
pour chaque
équipe).
Le second (1990) utilisé pour avantager les plus faibles équipes, consiste à
mettre soixante-six balles de ping-pong dans une urne, dont onze portent
le numéro 11, dix le numéro 10... En ce qui concerne le tirage de la première
1
2
pour le numéro 1, 66
pour le numéro
balle, les probabilités sont donc de 66
2...
Dénition 35
On appelle graphe des probabilités d'une variable aléatoire en-
tière uin graphique en bâtons représentant sur l'axe des X les valeurs entières
prises et sur l'axe des Y les probabilités correspondantes (cf. gure
Exercice 36
??).
Représenter le graphe de probabilités correspondant au tirage d'un
seul smarties.
5.3.4 Résumés numériques pour une variable aléatoire entière
Les graphes de probabilités permettent d'avoir une idée de la forme générale
de la concentration des probabiilités sur l'échelle des valeurs. Cependant il est
nécessaire d'avoir une description précise de leur localisation et dispersion.
2 De celles ne participant pas aux play-os, les plus fortes sont donc d'oce écartées du
premier choix.
5.4. UNE VARIABLE ALÉATOIRE ENTIÈRE PARTICULIÈREMENT UTILE : LE MODÈLE PROBABILISTE BI
Dénition 37
L' espérance
mathématique
d'une variable aléatoire entière est
la moyenne des résultats possibles pondérés par leurs probabilités. On la note
généralement
µ
(mu).
On trouve ainsi µ = 6 pour le premier système et µ = 7.67 pour le deuxième.
Commenter ces résultats.
Exercice 38
Calculer pour l'expérience du tirage d'un seul smarties l'espérance
mathématique.
Dénition 39
La
variance
d'une variable aléatoire entière est la moyenne des
carrés des écarts entre les résultats possibles et l'espérance mathématique. Cette
moyenne est obtenue en pondérant ces écarts par leurs probabilités respectives.
2
On note généralement la variance σ .
Dénition 40
L' écart-type d'une variable aléatoire est la racine carrée de sa
variance. On le note
σ.
On montre que l'on trouve ainsi σ =?? pour le premier système et σ =???
pour le second. Commenter ces résultats.
Exercice 41
Calculer pour l'expérience du tirage d'un seul smarties la variance
et l'écart-type.
5.4 Une variable aléatoire entière particulièrement
utile : Le modèle probabiliste binomial
5.4.1 Le modèle probabiliste binomial
Dénition 42
Le modèle probabiliste
binomial
correspond à des circonstances
où
il n'y a que deux résultats possibles dans une unique expérience aléatoire :
pile/face, correct/défectueux, mort/vivant ; l'un est considéré comme un
3
succès et l'autre comme un échec ,
les répétitions de cette expérience se réalisent indépendamment les unes
des autres et
la probabilité de succès reste la même à chaque répétition.
Le modèle probabiliste binomial décrit le comportement de la variable aléatoire nombre de succès apparus sur l'ensemble des répétitions.
La famille binomiale est engendrée par deux
paramètres : le
n et π .
nombre de ré-
pétitions et la probabilité de succès, notés respectivement
Ainsi, si la probabilité pour qu'un smarties soit rouge est de 0.15 et que nous
ouvrons une boîte de 33 smarties, nous pouvons employer le modèle binomial
de paramètres : n = 33 et π = 0.15.
3 Sans
qu'il y ait pour autant jugement de valeur...
38CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION
Exercice 43
Quels sont les paramètres correspondant au nombre de "pile" dans
un lancer de pièce cinq fois de suite ? Quels sont les paramètres correspondant
à la roulette russe ?
5.4.2 La loi de probabilités binomiale
Dénition 44
Pour
n répétitions avec une probabilité de succès π , la probabilité
X soit égale à x est
qu'une variable aléatoire binomiale
P r(X = x) = Cnx π x (1 − π)n−x
avec
Cnx
qui est appelé coecient binomial.
On peut calculer cette loi de probabilité en utilisant le menu déroulant "Distributions" , l'option "Distributions discrètes" puis "Distribution binomiale"
puis "Probabilités binomiales". Dans la fenêtre de dialogue, il faut alors préciser le nombre d'essais (n) et la probabilité de succès.
Reprenons notre problème de smarties avec n = 33 essais et une probabilité
de succès de π = 0.15, la probabilité d'obtenir 5 smarties rouges est donc de
P r(X = 5) = 0.19035.
On peut tracer un graphe de la loi de probabilité correspondante avec l'option
"Graphe de la distribution binomiale".
Exercice 45
Observer comment le graphe de la distribution binomiale évolue
π = 0.25, π = 0.5, π = 0.7,
n = 33.
lorsque vous modier la probabilité de succès en
π = 0.9, π = 0.95
Exercice 46
en conservant le paramètre
Représenter graphiquement les lois de probabilités correspondant
aux jeux de paramètres suivants : (n
= 10,π = 0.1), (n = 10,π = 0.25), (n =
10,π = 0.5), (n = 10,π = 0.85).
5.4.3 Espérance mathématique et variance binomiales
Dénition 47
paramètres
n
et
L'espérance mathématique d'une variable aléatoire binomiale de
π
est égale à
nπ
et sa variance à
nπ(1 − π).
An de calculer l'espérance, la variance et l'écart-type pour une distribution
binomiale comportant n = 33 essais et une probabilité de succès de π = 0.15
il faut écrire dans la fenêtre de script les trois commandes suivantes et les soumettre successivement :
33*0.15
33*0.15*(1-0.15)
sqrt(33*0.15*(1-0.15))
On voit qu'il faut en moyenne s'attendre à 5 smarties (µ = 4.95).
5.5. MODÈLE PROBABILISTE BINOMIAL ET DISTRIBUTION D'ÉCHANTILLONNAGE D'UNE PROPORTIO
Exercice 48
Trouver l'espérance mathématique et l'écart-type pour les distri-
butions binomiales suivantes :
n = 20 et π = 0.50 ;
n = 40 et π0.20 ;
n = 200 et π = 0.80.
5.4.4 Les probabilités cumulés
Il est souvent utile de calculer des probabilités binomiales cumulées, par
exemple la probabilité d'observer 2 succès ou moins ou bien la probabilité d'observer plus de 4 succès.
Pour ce faire, il est nécessaire d'employer l'option "Probabilités binomiales
cumulées".
Exercice 49
π = 0.15
Pour une variable aléatoire binomiale
X
de paramètres
n = 33
et
:
Calculer à l'aide du logiciel R :
P r(X > 5)
et
P r(X = 2), P r(X = 0), P r(X = 9),
P r(X ≤ 5).
Représenter par un graphique en bâtons sa loi de probabilités.
Exercice 50
estimée à
La probabilité de contact des sondés au téléphone est généralement
60 %.
Nous décidons de lancer une vague d'appels de 200 personnes.
On considérera que le nombre de personnes que l'on va parvenir à contacter suit
une loi binomiale de paramètres
n = 200
et
π = 0,6.
Quel nombre moyen de personnes peut-on espérer toucher dans cette première vague d'appels ?
Quelle est la probabilité de contacter au moins 150 personnes ?
Combien de personnes faudrait-il appeler pour espérer, en moyenne, contacter 150 personnes ?
5.5 Modèle probabiliste binomial et distribution
d'échantillonnage d'une proportion
Il existe deux conceptions majeures d'une population en statistique. Dans la
première, la population (bien que grande) est nie et clairement délimitée. Une
véritable échantillonnage aléatoire est pratiqué pour connaître la population.
C'est le domaine des sondages.
Dans la seconde conception, qui est celle exposée dans ce cours, un modèle
probabiliste va tenir lieu de population idéale (de taille innie) et on considérera
que les données recueillies ne sont qu'un échantillon aléatoire provenant de ce
modèle.
Dénition 51
Un
paramètre
est un nombre qui décrit la population/modèle.
Il est constant (et inconnu en inférence statistique).
40CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION
Une
statistique
est un calcul mené sur un échantillon. Sa valeur se modie
d'un échantillon à l'autre, elle est donc une variable aléatoire. Elle servira à
estimer les paramètres de la population.
Une fois le modèle posé, la théorie des probabilités permet d'étudier les
propriétés des échantillons qui en sont issus. Voyons ce qui se passe avec un
modèle binomial dans une situation proche de celle de l'expérience smarties. La
véritable valeur du paramètre sera xée arbitrairement pour les besoins de cette
simulation à π = 0.15. Générons grâce au logiciel R un échantillon correspondant
à un nombre d'eesais de n = 33 et calculons la proportion p correspondant au
nombre de succès y obtenus.
Pour eectuer cette simulation, on utilise le menu déroulant "Distributions",
l'option "Distributions discrètes" puis "Distribution binomiale", puis "Echantillon d'une distribution binomiale". Dans la fenêtre dialogue, il faut indiquer
pour "Nombre d'essais" : 33, pour "Probabilité de succès" : 0.15, pour "Nombre
d'échantillons" : 1 et pour "Nombre d'observations" : 1. Un jeu de données est
alors créé qui s'appelle par défaut "`EchantillonsBinomiaux"'.
Il se trouve sur ma machine que la valeur est pour ce tirage de y = 3 ce qui
3
= 0.091.
conduit à une proportion observée de p = ny = 33
Un autre tirage conduira (probablement) à une autre valeur. Il est essentiel
de comprendre que la valeur de la statistique est diérente d'un échantillon à
l'autre, c'est ce qu'on appelle les variations d'échantillonnage.
Que se passe-t-il lorsque l'on tire un grand nombre d'échantillons dans les
mêmes conditions ?
On peut étudier la distribution de la statistique observée, on parle alors
de distribution d'échantillonnage. Tirons 1000 échantillons binomiaux de taille
n = 33 et de paramètres π = 0.15 (Simplement en changeant dans la procédure précédente la valeur de "Nombre d'échantillons" en 1000). On peut ensuite
calculer les proportions correspondantes et réaliser un histogramme (cf gure
5.2).
La gure 5.2 montre
1. que la distribution d'échantillonnage de la proportion observée p est centrée autour de la véritable valeur du paramètre π . En moyenne la proportion d'un échantillon redonne la probabilité de succès. La théorie des
probabilités prouve facilement cette observation.
2. que l'histogramme a l'allure d'une densité normale.
On démontre également que
l'écart-type de la distribution
q l'on peut calculer
q
π(1−π)
0.15(1−0.15)
d'échantillonnage qui est de
soit
= 0.062. On appelle
n
33
cette valeur erreur standard de la proportion (SEP). On peut remarquer au
dénominateur de la formule de cette erreur standard que la taille de l'échantillon
apparaît. Plus l'échantillon est grand, plus la statistique issue de l'échantillon
sera proche de la valeur du paramètre.
Or, comme nous le verrons dans le prochain chapitre, pour une loi normale,
la probabilité que sa valeur observée soit située à moins de deux écarts-types
de son espérance est proche de 95%. Nous avions, en répétant des simulations
0
1
2
3
4
5
6
5.5. MODÈLE PROBABILISTE BINOMIAL ET DISTRIBUTION D'ÉCHANTILLONNAGE D'UNE PROPORTIO
0.0
0.1
0.2
0.3
Proportion
5.2 Histogramme de la distribution d'échantillonnage (1000 tirages) d'une
proportion observée sur une loi binomiale de paramètre n = 33 et π = 0.15.
Une courbe rouge lissée dite estimateur de densité a été ajoutée an de mieux
montrer la distribution
Fig.
0.4
42CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION
identiques 95% de chances que la valeur observée soit située entre 00.15−2×0.062
et 0.15 + 2 × 0.062, soit 3 % et 27 %.
5.6 Intervalle de conance "d'une proportion"
Dans le contexte probabiliste ci-dessus, nous connaissions π , le paramètre,
et nous étudiions comment évoluait la statistique p. En réalité, c'est le contraire
qui se passe : nous connaissons une seule valeur de p et nous souhaitons inférer
la valeur de π . La théorie des probabilités nous a appris qu'il y a 95% de chance
que la statistique soit située à moins de deux écarts-types du paramètres. Ce
qui revient à dire qu'il y a aussi 95% de chances que le paramètre se trouve à
deux écarts-types de la statistique !
Il n'y a qu'un petit problème . q
. .on ne connaît pas la valeur de l'écart-type car
π(1−π)
) ! On remplacera dans cette formule
elle dépend du paramètre (c'est
n
le paramètre π par la valeur observée de la statistique p, et heureusement on
peut prouver que cette approximation marche plutôt bien lorsque l'échantillon
atteint une taille raisonnable !
Dénition 52
L'intervalle au niveau de conance
N C = 95 % d'une probabin et π est donné par les
lité de succès dans un contexte binomiale de paramètre
quantités
taille
4
q
p ± 2 p(1−p)
n
où
p
est la proportion observée dans l'échantillon de
n.
Avec les valeurs issues de la simulation de ma machine (y = 3 et n = 33),
l'intervalle de conance s'étend donc de
r
3
3
3
−2×
(1 − )/33 = 0%
33
33
33
à
3
−2×
33
r
3
3
(1 − )/33 = 19%.
33
33
La valeur du paramètre (π = 0.15) est bien dans ce cas compris dans l'intervalle de conance. Il faut bien comprendre que le contraire ne se produit qu'une
fois sur 20.
Remarque 53
Il est dicile de comprendre ce qu'est et ce que n'est pas un
intervalle de conance !
Un intervalle de conance (à
95%)
est une formule mathématique qui ,
si on l'applique de nombreuses fois, marchera
95%
du temps c'est-à-dire
contiendra la vraie valeur du paramètre.
Un intervalle de conance n'est pas un intervalle qui a une probabilité de
95%
de contenir le paramètre. Il le contient ou ne le contient pas, c'est
tout.
4 Cette
notation désigne les quantités p − 2
q
p(1−p)
n
q
et p + 2
p(1−p)
n
.
5.7. EXERCICES
43
Un intervalle de conance n'est pas un intervalle qui contiendra
95%
des
proportions dans des échantillonnages similaires.
On peut souhaiter modier le niveau de conance. La formule de l'intervalle
devient alors :
Dénition 54
L'intervalle au niveau de conance
NC
d'une probabilité de suc-
q
p ± z p(1−p)
où p
n
n et où z , le coecient
cès dans un contexte binomial est donné par les quantités
est la proportion observée dans l'échantillon de taille
multiplicateur, est donné par la loi normale
Remarque 55
5.
6 de cette formule en tapant
On obtiendra un résultat proche
prop.test(x=3,n=33,correct=F, conf.level=0.95)
dans la fenêtre de script la commande :
et en soumettant.
En l'espèce, l'intervalle de conance à N C = 0.95 obtenu s'étend de 0.031 à
0.236. Il contient la valeur du paramètre.
5.7 Exercices
Exercice 56
Quelle représentation de l'enseignant d'éducation physique et spor-
tive (EPS) ont ses collègues d'autres disciplines ? Trois cent trente et un professeurs de collèges et lycées ont accepté de répondre à un questionnaire consacré
à ce thème. À part quinze d'entre eux, ils se sont prononcés sur la question :
comparativement aux autres enseignants, l'enseignant d'EPS a une charge de
travail :
moins importante (121 réponses),
équivalente (185) ou
plus importante (10) ? Ici, il n'y a pas véritablement une population clairement dénie, sinon une
hypothétique population d'enseignants dont une partie pense que... On la remplace par un modèle binomial. Nous allons calculer un intervalle de conance
concernant la probabilité qu'un enseignant estime que la charge de travail de
l'enseignant d'EPS est moindre. La proportion observée dans l'échantillon est
de
p=
121
= 0,383.
316
Calculer un intervalle de conance au niveau NC=0.95 de la probabilité.
au niveau de conance NC=0.90
Supposons que la proportion observée reste la même mais que la taille
de l'échantillon soit de
n = 50.
Calculer un intervalle de conance de la
probabilité au niveau NC=0.95.
5 Voir dans la section suivante
6 pas si proche, car ici nous sommes
dans une situation mauvaise pour les approximations
qui est que (1) la probabilité de succès est plutôt faible et (2) la taille de l'échantillon l'est
aussi.
44CHAPITRE 5. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE PROPORTION
Et si la taille de l'échantillon est de
Remarque 57
n = 5000 ?
La taille de l'intervalle de conance d'une proportion varie en
fonction inverse de (la racine carrée de) la taille de l'échantillon.
Exercice 58
Un questionnaire envoyé par la Caisse Nationale d'Assurance Ma-
ladie à un échantillon représentatif de la population française visait à connaître
les risques sportifs. Sur
7408
accidents déclarés,
1037
sont le fait de la pratique
sportive.
Calculer le pourcentage que constituent les accidents sportifs.
Calculer un intervalle de conance au niveau
N C = 95 %
de cette pro-
portion ? Que pensez-vous de la précision des résultats ? À quoi est-elle
due ?
Exercice 59
On s'intéresse à l'expérience aléatoire jeter trente fois une pièce
de monnaie où l'on note le nombre de face (qui est considéré comme un
succès).
Quelle est la valeur du paramètre dans cette expérience ?
J'ai obtenu
18
fois face, soit
p = 60 %.
Calculer l'erreur standard corres-
pondant à cette proportion. Quelle est la valeur du coecient multiplicateur
z
pour un niveau de conance
N C = 95 % ?
Calculer l'intervalle de
conance correspondant. Contient-il la valeur du paramètre ?
Simuler cette expérience à l'aide du logiciel Rcmdr. Quelle proportion
trouvez-vous ? Calculer un intervalle de conance à
il la valeur du paramètre ?
N C = 95 %. Comprend-
Chapitre 6
Généraliser les résultats
obtenus avec une moyenne
6.1 La lecture du jour : Greeneld et al. [8]
Cet article de vulgarisation rappelle les défauts de la procédure inférentielle
la plus classique : les tests d'hypothèses. Il présente la logique de construction
des intervalles de conance et en quoi ils produisent une information essentielle :
une mesure de la taille de l'eet qu'étudie le chercheur et de l'incertitude qui
entoure cette mesure. Des exemples d'utilisation sont présentés dans le cadre de
la médecine du sport.
6.2 La situation : Quelle est la VO2max des enfants ?
Sundberg étudie la VO2 max d'une importante population d'enfants (8-15
ans). La moyenne de ces valeurs est M = 55.4 (et l'écart-type SD = 7.7).
L'histogramme de ces VO2 max a une allure de courbe en cloche. Contrairement
au chapitre précédent, les valeurs de VO2 max ne sont pas uniquement des valeurs entières (1, 2, 3...). Toutes les valeurs peuvent être prises (sur un certain
intervalle). On dit alors que cette mesure est réelle ou continue.
An de généraliser le résultat obtenu sur cet échantillon pour la moyenne
à une population générale, nous avons besoin d'un modèle probabiliste : la loi
normale est le modèle le plus classique pour les variables aléatoires réelles.
45
46CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE
6.3 Une variable aléatoire réelle particulièrement
utile : Le modèle probabiliste normal
6.3.1 Les intervalles : des événements particuliers
Dénition 60
Lorsqu'une variable aléatoire peut prendre toutes les valeurs au
sein d'un intervalle, on dit qu'elle est
réelle. Pour les variables aléatoires réelles,
les probabilités sont dénies sur des intervalles par l'intermédiaire d'une fonction
de densité. La probabilité d'un intervalle s'identie en eet à la surface qui lui
correspond sous la fonction de densité.
La gure 6.1 montre une densité de probabilité où les valeurs sont concentrées
autour de 0, rarement supérieures à 2 en valeur absolue et symétrique : on a
autant de chance de voir des valeurs positives que négatives. La probabilité
qu'une valeur issue de cette loi soit située dans l'intervalle (0.5,2) est donnée
par la surface en rouge (l'aire totale sous la courbe est de 1).
Les propriétés habituelles des probabilités des variables aléatoires entières
s'étendent aux variables réelles (inférieure à 1, somme unitaire, addition des
événements disjoints).
6.3.2 Le modèle probabiliste normal "standard"
Dénition 61
La fonction de densité du modèle probabiliste normal (cf gure
2
f (z) = √12π exp(− z2 ) Son espérance mathématique est nulle
et sa variance est égale à 1.
6.1) standard Z est
Cette fonction de densité est symétrique, elle atteint son maximum en zéro
et est pratiquement nulle au delà de trois (en valeur absolue).
Pour obtenir l'allure de cette fonction de densité, choisir le menu déroulant "Distributions", puis "Distributions continues" puis "Distribution normale"
puis "Graphe de la distribution normale". Il faut choisir dans la fenêtre de dialogue les valeurs par défaut pour mu = 0 et sigma = 1.
Attention à ne pas confondre densité et probabilité, on obtient les probabilités en intégrant la fonction de densité. Les probabilités se calculent à
l'aide du menu déroulant "Distributions", puis "Distributions continues" puis
"Distribution normale" puis "Probabilités normales". On peut alors calculée
l'aire, à gauche ou à droite, sous la courbe de densité pour n'importe quelle
valeur (appelée quantile ). On obtient ainsi P r(Z < −0.5) = 0.6914625 et
P r(Z > 0.75) = 0.2266274.
Exercice 62
Pour la loi normale standard
Z,
calculer la probabilité correspondant aux intervalles suivants :
−0.5), P r(Z < 4.5), P r(Z > 1.25), P r(Z > −2),
puis en procédant en deux temps, P r(1.25 < Z < 1.5)
1.4).
et
P r(Z <
P r(−0.65 < Z <
0.2
0.0
0.1
dnorm(y)
0.3
0.4
6.3. UNE VARIABLE ALÉATOIRE RÉELLE PARTICULIÈREMENT UTILE : LE MODÈLE PROBABILISTE NO
−3
−2
−1
0
1
2
y
6.1 L'aire indiquée correspond à la probabilité de l'intervalle (0.5,2) pour
la loi normale standard
Fig.
3
48CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE
6.3.3 La loi normale
Pour avoir une famille de modèles relativement souples et utiles en pratique,
il faut que la loi de probabilité puisse avoir n'importe quelle espérance et variance. Par exemple, pour modéliser les VO2 max de Sundberg, il faudrait que
nous ayons quelque chose proche de µ = 55 et σ = 8. On peut généraliser en ce
sens la loi normale standard.
Dénition 63
Par la simple transformation
Y = σZ +µ on peut, à partir de la
loi normale standard Z, générer des lois de probabilités Y de même forme mais
2
2
d'espérance mathématique µ et de variance σ . On note une telle loi N(µ,σ ).
Pour calculer la probabilité d'un intervalle (a,b) avec la loi normale N(µ,σ 2 ),
b−µ
on calcule en fait celle de l'intervalle ( a−µ
σ , σ ) à l'aide de la loi normale standard Z.
Remarque 64
leurs de
mu
et
Il s'agit avec le logiciel Rcmdr de simplement modier les va-
sigma
dans les fenêtres de dialogue.
Calculons pour la loi N(µ = 55.4,σ = 7.7) qui est supposée modéliser les
VO2 max de Sundberg, la probabilité qu'un enfant est une VO2 max plus grande
que 60. On trouve P r(Y > 60) = 0.275.
Exercice 65
d'écart-type
La VO2 max suit donc la loi normale d'espérance
σ = 7 ,7
µ = 55,4
et
pour des enfants "normaux".
Quelle est la probabilité qu'un enfant de cet âge ait une VO2 max supérieure
à 70 ? Inférieure à 50 ?
Douze enfants aveugles ont également été évalués. La moyenne observée
n'est alors que de
45.3.
Quelle est la probabilité qu'un enfant voyant pré-
sente une VO2 max inférieure à cette valeur ?
Exercice 66
Soit
Y
Calculer les probabilités que (1)
Exercice 67
= 12,σ 2 = 4).
11 < Y < 13,5.
une variable aléatoire de loi normale N(µ
Y < 15,
(2)
Y > 10,5
et (3)
Comment établir des limites concernant le taux d'hématocrites
(volume total des globules rouges par rapport au sang) ? O'toole
et al.
se sont
intéressés à une population de triathlètes et ont établi que les taux observés
avant une course chez ces hommes suivent assez dèlement une loi normale
d'espérance
µ = 43.2
(%) et d'écart-type
σ = 2.9.
Quelle est la probabilité d'observer dans ce contexte un triathlète dont le
taux dépasse
45 % ?
Dont le taux dépasse
50 % ?
Les auteurs suggèrent d'employer une valeur de détection de
52 %
car elle
est située à trois écarts-types au dessus de la moyenne. Qu'en pensez-vous ?
Remarque 68
Lorsque le nombre de répétitions est assez grand, on peut em-
ployer la loi normale pour approximer certaines probabilités binomiales.
Lorsqu'on s'intéresse à des mesures numériques réelles, on calcule le plus
souvent la moyenne de l'échantillon, et on aimerait avoir une idée de sa variation
d'un échantillon à l'autre.
6.4. LA DISTRIBUTION D'ÉCHANTILLONNAGE D'UNE MOYENNE
49
6.4 La distribution d'échantillonnage d'une moyenne
An de dénir un intervalle de conance dans ce contexte, on considère à
nouveau que les données ont été produites par un modèle probabiliste, la loi
normale s'imposant alors naturellement. L'espérance mathématique µ de cette
loi étant inconnue1 , l'objectif sera de la situer par un encadrement.
Nous allons supposer que les données sont générées par un modèle normal
d'espérance µ = 15 et de variance σ = 3. Commençons par générer un échantillon de 20 valeurs issues de cette loi grâce à au logiciel Rcmdr. Il faut choisir
le menu déroulant "Distributions", puis "Distributions continues" puis "Distribution normale" puis "Echantillon d'une distribution normale".
Dans la fenêtre de dialogue qui s'ouvre il faut indiquer pour "mu" :15, pour
"sigma" : 3, pour "Nombre d'échantillons" : 1 et pour "Nombre d'observations" :
20. Il faut également cocher dans la rubrique "Ajouter au jeu de données" les
cases moyennes et écarts-types. Il se crée alors un tableau à une ligne et 22 colonnes, les deux dernières indiquant pour ma machine une moyenne de 15.47092
(et incidemment un écart-type de 2.434574). Comme précédemment nous allons
considérer que cet échantillon est un parmi d'autres.
Exercice 69
Générer 1000 échantillons semblables au précédent et représenter
par un histogramme la distribution d'échantillonnage de la moyenne. Calculer
la moyenne de ces moyennes et l'écart-type de ces moyennes.
La distribution d'échantillonnage obtenue (cf gure 6.2) présente les caractéristiques suivantes :
elle semble suivre la loi normale,
elle est centrée sur le paramètre µ, l'espérance mathématique (ici 15),
son écart-type est en relation avec l'écart-type σ de la distribution et la
taille de l'échantillon n. Plus précisément on démontre qu'il est exactement
de √σn soit à peu près 0.671.
L'écart-type de la distribution d'échantillonnage s'appelle l'erreur standard
de la moyenne (SEM). L'écart-type initial σ est pour l'heure inconnu. On l'estimera par l'écart-type issu de l'échantillon SD.
Dénition 70
On estime l' erreur
standard de la moyenne2
par
SD
SEM = √ .
n
Exercice 71
Du fait de leur handicap, les aveugles n'ont-ils pas une pratique
physique moindre ? Quelles sont leurs capacités physiques par rapport à leurs
pairs voyants ? Connaître ces limites peut permettre de programmer des interventions plus ecaces. L'étude de Sundberg concerne douze sujets masculins
âgés de huit à quatorze ans qui montrent une VO2 max moyenne de
ml/kg/min avec un écart-type de
SD = 8.9
Estimer l'erreur standard de la moyenne (SEM).
1 Ainsi que l'écart-type σ
2 Standard error of the mean.
M = 45.3
(estimation faite sur ergo-cycle).
50CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE
150
0
50
100
Frequency
200
250
Histogram of dist.ech.moy
12
13
14
15
16
dist.ech.moy
6.2 Histogramme de la distribution d'échantillonnage (1000 tirages) d'une
moyenne observée sur des échantillons de taille 20 issus d'une loi normale de
paramètre µ = 15 et σ = 3.
Fig.
17
6.5. L'INTERVALLE DE CONFIANCE "D'UNE MOYENNE"
51
6.5 L'intervalle de conance "d'une moyenne"
Sachant que la distribution d'échantillonnage suit la loi normale et donc que
la valeur observée de la statistique (la moyenne) à 95% de chance d'être située
à moins de deux erreurs standards du paramètre (l'espérance mathématique),
on peut comme précédemment "retourner" l'argument et donner la dénition
suivante.
Dénition 72
L'intervalle de conance au niveau
95 %
d'une espérance maSD
√ Y où n est la taille de
n
l'échantillon, MY est sa moyenne et SDY son écart-type.
thématique est donné par les quantités
MY ± 2 ×
Les quantités correspondantes pour l'exercice 71 sont donc :
8.9
45.3 − 2 × √ = 40.2
12
et
8.9
45.3 + 2 × √ = 50.4.
12
L'intervalle au niveau de conance 95 % de la VO2 max moyenne d'un handicapé visuel est de {40.2; 50.4}. Dans le même article, la VO2 max d'un groupe
d'enfants du même âge est évaluée en moyenne à 55.4 ml/kg/min. On peut donc
voir qu'il existe une diérence notable.
6.5.1 La loi de Student
La formule de base est une approximation commode d'une formule plus
précise où le coecient multiplicateur 2 sera remplacé par une valeur dite t de
Student, et ce, pour deux raisons.
D'une part, on peut souhaiter varier le niveau de conance. D'autre part,
à cause de l'approximation de σ par SDY , la loi qui fait référence pour la
distribution d'échantillonnage de la moyenne n'est nalement pas la loi normale,
mais une loi un peu plus étalée qui s'appelle loi de Student.
Cette loi dépend d'un paramètre qui est le degré de liberté et correspond ici
à la taille de l'échantillon moins un (n − 1). Pour le problème des aveugles avec
un échantillon de douze individus, on utilisera donc ddl = 12 − 1 = 11.
Dénition 73
L'intervalle de conance au niveau N C d'une espérance mathé√ Y où t est le quantile d'une loi
MY ± t × SD
n
1−N C
de Student à n − 1 degrés de liberté correspondant à la probabilité q = 1 −
.
2
matique est donné par les quantités
Remarque 74
La valeur de
t
peut être calculée en utilisant le menu dé-
roulant "`Distributions", puis les options "Distributions continues","Distribution
t","Quantiles t"
Si on dispose des données, et pas seulement des statistiques, c'est beaucoup
plus simple, il sut de choisir le menu déroulant "Statistiques", puis les
options "Moyennes" et "t-test univarié".
52CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE
Ainsi, pour obtenir un intervalle de conance à N C = 90 % à partir de
= 0.95
l'échantillon précédent où n = 12 soit ddl = 11, on emploie q = 1− 1−0.90
2
ce qui donne t = 1.796 d'où les deux quantités
8.9
45.3 ± 1,796 × √
12
générant l'intervalle {40.7 ; 49.9}.
Exercice 75
R. ROLLIER (M2PPMR) a pris en charge l'entraînement de 39
joueurs de moins de 19 ans de l'ASVEL Rugby. Un test de vitesse (30 mètres
avec deux changements de direction) a été passé par tous ces joueurs. Le temps
(sec.) a été relevé et est présenté dans le chier ROLLIER.xls.
Représenter graphiquement les données de temps
Ces valeurs semblent-elles approximativement suivre une loi normale ?
Calculer un intervalle de conance au niveau
N C = 0.90
de l'espérance
mathématique de cette variable. Quel peut-être le problème dans le calcul
de cet intervalle ? Comment suggéreriez-vous d'améliorer cette procédure ?
Exercice 76
Pour les tailles d'échantillons (n) et niveaux de conance (N C )
suivants, trouver les valeurs du coecient multiplicateur
t à utiliser pour construire
l'intervalle de conance de l'espérance mathématique d'une loi normale :
(1) n = 25 et N C = 95 %, (2) n = 25
N C = 99 %, (4) n = 15 et N C = 98 %.
Exercice 77
et
N C = 90 %,
(3)
n = 15
et
La ménarche (apparition des règles) est une date importante dans
la vie de la jeune lle. Elle semble varier en fonction de la pratique sportive,
une activité physique intense ayant tendance à la retarder. Dans quelle mesure
est-ce vrai ? Une population de femmes africaines a été étudiée. La date de leur
ménarche est obtenue, pour ces femmes âgées de 20 à 30 ans, par une technique
de rappel (recoupement d'événements), généralement au mois près.
Cinquante handballeuses de haut niveau, ayant commencé l'entraînement
avant la ménarche ont été interrogées. Leurs déclarations présentent une moyenne
de
M = 15.6
années et un écart-type de
SD = 1.57.
Donner un intervalle de conance à
N C = 95 %
de l'espérance mathéma-
tique de la ménarche pour cette population.
214 femmes sédentaires a été étudié, abou13.78 ans pour la ménarche. En rapprochant
En outre, un groupe témoin de
tissant à un âge moyen de
l'intervalle de conance précédent de cette norme , que peut-on suspecter de l'inuence de l'exercice physique intense ? Quelles précautions
faut-il toutefois prendre dans l'énoncé de cette conclusion ?
6.6. POUR ALLER PLUS LOIN
53
6.6 Pour aller plus loin
6.6.1 Quelques problèmes à propos de l'utilisation des intervalles de conance
Un certain nombre d'hypothèses sont sous-jacentes à l'utilisation valide des
intervalles de conance.
La première est que nous avons aaire à un échantillon aléatoire de données. Ceci ne peut être le cas que s'il y a eu une procédure de tirage au
sort, soit par tirage aléatoire dans un contexte de sondage, soit par randomisation dans un cadre expérimentale. Dans toute autre cas de gure,
rien ne garantit la conance que l'on peut accorder à l'intervalle.
A la base des calculs et du comportement de la distribution d'échantillonnage, il y a le modèle statistique. S'il ne correspond pas à la situation
concrète, parce que les données sont dissymétriques par exemple pour une
loi normale, le calcul de l'IC sera faux.
En présence d'une (ou de plusieurs !) données extrêmes, le calcul de l'IC
qui est basé sur deux statistiques peu robustes est lui aussi faux.
lorsque l'on calcule sur de nombreux paramètres ou groupes diérents des
IC, il ne faut pas oublier que la formule ne marche que dans 95% des cas.
Par conséquent, sur 20 caculs, il ne serait pas étonnant de trouver des
résultats "faux". C'est un problème qu'on appelle souvent problème de
multiplicité des tests.
6.6.2 Les méta-analyses
L'un des objectifs de la recherche scientique est d'obtenir que les résultats
menés par diérents laboratoires se cumulent an de dégager ce qui est l'état
de la connaissance sur un problème.
Ainsi, si diérents laboratoires mènent des mesures de VO2 max sur des enfants dans diérentes conditions, il est bon de pouvoir repérer ce qui est commun dans tous ces travaux. C'est là qu'interviennent les méta-analyses. Il s'agit
de regrouper les informations quantitatives des diérentes études à une même
échelle.
Les intervalles de conance sont très intéressants pour cela car ils permettent,
par exemple sur un même graphique de superposer ces intervalles et de les comparer. La gure 6.3 montre avec les données des smarties du chapitre précédent
quel peut être le type de résultat obtenu.
1 2 3 4 5 6 7 8 9
Echantillons
11
13
15
54CHAPITRE 6. GÉNÉRALISER LES RÉSULTATS OBTENUS AVEC UNE MOYENNE
0.0
0.2
0.4
0.6
0.8
Fréquences smarties rouges
6.3 Intervalles de conance de la probabilité pour un smarties d'être de
couleur rouge suivant les proportions obtenues par 15 étudiants.
Fig.
1.0
Chapitre 7
Le test d'hypothèses
La méthode inférentielle la plus utilisée est la technique des tests d'hypothèses. Elle est cependant décriée par nombre de méthodologistes pour sa complexité et le fait qu'elle apporte au nal moins d'information que les intervalles
de conance. Cependant, malgré ses défauts, comme elle est massivement utilisée dans la publication d'études, il convient de la connaître.
7.1 La lecture du jour : Bonsangue [9]
Cet article pédagogique permet de bien comprendre la structure générale
des tests d'hypothèses, et la possibilité de prendre de bonnes ou de mauvaises
décisions. Il y manque évidemment la quantication de toutes ces décisions et
risques, ce à quoi nous allons consacrer ce chapitre.
7.2 La situation : une norme à tester
Filaire et al. [?] ont mesuré pour sept jeunes gymnastes féminines de niveau
national les concentrations en Ostéocalcine, marqueur du métabolisme osseux, et
ont obtenu une moyenne de 38.8±16.9 (ng/mL). Les auteurs donnent également
comme norme tirée de la littérature une valeur moyenne de 22.5. Nous allons
employer un test d'hypothèses an de voir si cet échantillon (censé représenter
les gymnastes de haut niveau en général) se conforme à la norme.
7.3 Le modèle et les hypothèses
Le modèle est donc celui de la loi normale pour de telles données numériques. On va donc supposer que la mesure en ostéocalcine du groupe peut être
modélisée par une loi normale N (µ, σ).
Ce qui nous intéresse est de poser des questions concernant le paramètre
µ. En particulier la question de référence est la comparaison à la norme, qu'on
55
56
CHAPITRE 7. LE TEST D'HYPOTHÈSES
va appeler hypothèse nulle : H0 : µ = 22.5. On va confronter cette hypothèse
à une hypothèse alternative, il y a ici trois choix possibles : Ha(1) : µ > 22.5,
Ha(2) : µ22.5 ou Ha(3) : µ 6= 22.5.
Remarque 78
Dans un test d'hypothèse, les formes d'hypothèses alternative
sont choisies a priori, sans référence au jeu de données sur la base de nos
connaissances préalables.
Nous allons ici privilégier l'hypothèse alternative Ha(1) : µ > 22.5 car on
s'attendait à une élévation du niveau de ce marqueur.
Dénition 79
Pour réaliser un test sur un paramètre du modèle, il faut dé-
nir deux hypothèses : l'hypothèse alternative correspond à ce que l'on souhaite
démontrer et l'hypothèse nulle à une hypothèse de référence.
Nous allons dorénavant considérer que l'hypothèse nulle est vraie et donc
que le modèle statistique est à présent : Y ∼ N (µ = 22.5, σ). Dans ce cas, nous
savons qu'un échantillon tiré d'une telle loi aura un comportement prévisible
(au moins sur le long terme) et qu'en particulier la moyenne de l'échantillon
MY va suivre une loi normale N (µ = 22.5, √σn .
Remarque 80
Ce qui est particulier dans la démarche de test c'est qu'il s'agit
d'un raisonnement par l'absurde : on va se placer dans la situation de référence
(l'hypothèse nulle) an d'essayer de démontrer qu'elle est fausse et donc que
l'alternative (qui nous intéresse) est vraie.
On va s'intéresser à la statistique suivante qui mesure l'écart entre la moyenne
réellement observée et ce que doit être le comportement de la moyenne dans le
contexte de l'hypothèse nulle1 :
Z=
MY − 22.5
√
σ/ n
qui est alors censée suivre une loi normale standard.
Le problème est que la valeur de σ est inconnue, on va donc la remplacer par
la valeur de l'échantillon c'est-à-dire SDY ce qui a pour eet que la statistique :
T =
MY − 22.5
√
SDY / n
suit alors une loi de Student à n − 1 degrés de liberté.
Or sur l'échantillon, on observe n = 7, MY = 38.8 et SDY = 16.9. Ceci
conduit à t = 2.55. Est-ce que cette valeur est ordinaire pour une loi de Student
à 7 − 1 = 6 degrés de liberté (ce qui conduit à ne pas douter de l'hypothèse
nulle) ou est-elle très étonnante (ce qui conduit éventuellement à la remettre en
cause) ? Pour le savoir, représentons la loi de Student et la valeur observée sur
un graphique (cf gure 7.1).
1 On peut remarquer la forme très proche de cette statistique, à un coecient près qui
dépend de la taille de l'échantillon, avec la taille d'eet, ici ES=0.96, nous avons aaire à un
eet fort
57
0.3
7.3. LE MODÈLE ET LES HYPOTHÈSES
0.2
0.1
densité
t observé
−3
−2
−1
0
1
2
t
7.1 Densité de la statistique de testt lorsque l'hypothèse nulle (µ = 22.5)
est vraie : loi de Student à 6 ddl. L'emplacement de la valeur de la statistique
observée sur l'échantillon est indiqué par une èche et semble peu compatible
avec cette distribution.
Fig.
3
58
CHAPITRE 7. LE TEST D'HYPOTHÈSES
On constate que cette valeur est assez surprenante. Pour quantier la compatibilité de cette valeur avec l'hypothèse de référence, on va calculer la probabilité de voir apparaître des valeurs au moins aussi surprenante que celle-ci,
c'est-à-dire la probabilité de voir apparaître des valeurs plus petites que la valeur observée. Il faut donc calculer la probabilité pour une loi T de Student à
6 degré de liberté que T > 2.55. On trouve p = 0.022. Cette quantité qu'on
appelle probabilité critique sera la mesure que nous emploierons an de décider
quelle hypothèse est la plus vraisemblable. Puisqu'elle est ici faible on décidera
que l'hypothèse alternative est préférable et donc que les jeunes gymnastes ont
en moyenne une mesure d'ostéocalcine plus élevée.
Dénition 81
La probabilité critique mesure la compatibilité des données avec
l'hypothèse nulle. Son calcul dépend de l'hypothèse alternative choisie. Plus elle
est faible, plus on aura tendance à rejeter cette hypothèse au prot de l'hypothèse
alternative. Le seuil de décision conventionnel est placé à
Remarque 82
5%.
Lorsqu'on dispose des données, les calculs précédents se réa-
lisent automatiquement en employant le menu déroulant "Statistiques", et les
options "Moyennes" et "t-test univarié". Le chier OSTEOCALCINE.xls contient
2
les valeurs des gymnastes , reproduisez les résultats du test d'hypothèses.
Résumé 83
Pour réaliser un test statistique, il faut
identier le modèle statistique qui correspond à la situation,
dénir les deux hypothèses, nulle et alternative, portant sur les paramètres
du modèle,
calculer une statistique sur l'échantillon dont on connaît le comportement
si l'hypothèse nulle est vraie et
utiliser cette statistique pour calculer une probabilité critique qui mesure
la compatibilité entre les données (résumée par la statistique calculée) et
l'hypothèse nulle.
Nous présenterons alors chaque nouveau test sous le format suivant qui reprend la démarche du test t univarié que nous venons de présenter :
Dénition 84
Pour tester dans une population normale d'espérance mathé-
µ et d'écart-type σ , l'hypothèse que l'espérance est égale à une norme :
(H0 : µ = norme), on utilise le test de Student pour un échantillon. On calcule
pour la moyenne MY et l'écart-type SDY observés sur l'échantillons de taille n
matique
puis le score normalisé suivant qui servira de statistique de test :
t=
MY − norme
√
.
SDY / n
La probabilité critique de l'hypothèse nulle
Ha(1) : µY > norme est égale à la probabilité
n − 1 degrés de liberté soit plus élevée que t.
contre l'hypothèse
de Student à
que la loi
2 Ce ne sont pas les véritables valeurs dont on ne dispose pas dans l'article mais des valeurs
virtuelles correspondant aux mêmes moyenne et écart-type
7.4. LA PUISSANCE D'UN TEST D'HYPOTHÈSE
Ha(2) : µY <
même loi soit plus petite que t.
contre l'hypothèse
norme
59
est égale à la probabilité que la
Ha(3) : µY 6= norme est égale à la probabilité que cette
loi soit plus éloignée de zéro que t.
contre l'hypothèse
Exercice 85
Reprendre les données du chier DAUCHEZ.xls (cf. Exercice 25)
sur un groupe de joueurs et joueuses de tennis et leur résultat au test navette.
Tester ce groupe par rapport à la norme fournie par la FFT de 12.75 pour ce
test.
Exercice 86
Reprendre les données du chier ALIMENTATION.xls (cf. Exer-
cice 27) concernant les jeunes lles et les désordres alimentaires. Tester si l'estime de soi (variable ES) des jeunes lles non sportives peut être considérée
3
comme égale à la norme de 32.88 .
7.4 La puissance d'un test d'hypothèse
AInsi un test d'hyptohèse est une procédure de décision entre deux hypothèses : H0 et Ha . Nous avons vu que le principe repose sur l'idée que l'hypothèse
nulle est vraie, et qu'on limite la probabilité de se tromper dans ce cas à α%
qui est le risque de première espèce.
Cependant, l'hypothèse que nous voulons démontrer est l'hypothèse alternative, il serait également intéressant de savoir dans ce cadre là quelle est alors la
probabilité de se tromper, ou mieux, d'avoir raison !
Dénition 87
La puissance d'un test est la probabilité de démontrer l'hypothèse
alternative lorsqu'elle est vraie. Elle indique donc notre capacité à prouver ce
qui nous intéresse. On la note
1−β
Toutefois, an de pouvoir mener le calcul, il faut préciser cette hypothèse
alternative en disant exactement dans quelle mesure on s'éloigne de l'hypothèse
nulle. C'est le rôle de la taille d'eet prospective.
Dénition 88
La taille d'eet prospective est une mesure a priori de la distance
à l'hypothèse nulle. Pour le test de ce chapitre elle est égale à
δ=
µ − norme
.
σ
On voit bien que la taille d'eet est nulle pour la valeur du paramètre correspondant à l'hypothèse nulle. Comment quantier cette valeur a priori : par
connaissance d'expert, grâce à la bibliographie, par le biais d'une étude pilote.
Reprenons l'exemple de l'Ostéocalcine et imaginons que la lecture de la littérature, outre une norme moyenne de 22.5 donne également une valeur d'écarttype de 20. A partir de là, on peut imaginer ce qui se passe dans diérents
3 La procédure de sélection d'un groupe d'unités statistiques est expliquée dans l'exercice
originel
60
CHAPITRE 7. LE TEST D'HYPOTHÈSES
scénarios : si µ = 30 pour les gymnastes, on a δ = (30 − 22.5)/20 = 0.375, un
eet classé entre faible et moyen par Cohen. Si µ = 40, proche de ce qui a été
observé en réalité, on a δ = 0.875 un eet fort.
Une fois la taille d'eet prospective dénie, la taille d'échantillon xée, le
risque de première espèce déterminé (usuellement à 5%), la puissance peut être
calculée. Le package pwr permet de calculer les puissances statistiques dans les
situations les plus courantes en se basant sur les notations et conventions de
l'article de Cohen [3]. La fonction pwr.t.test est celle qui correspond au test de
comparaison d'une moyenne à une norme.
En utilisant les deux tailles d'eet prospective proposées : δ1 = 0.375 et
δ2 = 0.875, un taille d'échantillon de n = 7, un risque de première espèce
classique à α = 0.05 dans un test unilatéral (nous savons que les valeurs des
gymnastes seront plus élevées), nous obtenons comme puissance : 1 − β1 = 0.223
et 1 − β2 = 0.665.
require(pwr)
pwr.t.test(n=7,d=0.875,sig.level = 0.05,
type = "one.sample",alternative ="greater")
Ceci signie que pour repérer un eet classé comme fort δ2 = 0.875, alors
qu'il existe, nous n'avons nalement que deux chances sur trois d'y parvenir
(1 − β2 = 0.665) ! Remarquons ce qu'il se passe si nous décidons de réaliser
l'expérience avec un nombre plus grand de gymnastes n = 20 mais la même
taille d'eet, la puissance est alors de (1 − β = 0.983), nous sommes presque
certains de démontrer ce type de résultat.
Remarque 89
La puissance d'un test augmente avec la taille d'eet prospective
et la taille d'échantillon.
On peut se poser la question d'une façon un peu diérente, supposons que
nous soyons prudent en pensant qu'un eet moyen au moins est attendu soit
δ = 0.50. On considère généralement une puissance de 1−β = 0.80 comme satisfaisante, il est alors possible de calculer (en inversant la formule de la puissance)
quelle taille d'échantillon est nécessaire pour y parvenir. On obtient : n = 26.
pwr.t.test(d=0.50,power=0.80,sig.level = 0.05,
type = "one.sample",alternative ="greater")
Remarque 90
Les calculs de puissance permettent de mieux saisir ce qui se
passe dans un test d'hypothèses, en particulier pourquoi la taille d'eet prospective et la taille d'échantillon doivent être considérées simultanément si l'on
souhaite obtenir des résultats signicatifs.
Chapitre 8
Etude inférentielle de mesures
numériques répétées (2
conditions)
8.1 La lecture du jour : Cohen [3]
L'article de Cohen [3] constitue une mine d'information en ce qui concerne les
tests statistiques. Pour les situations les plus courantes, il donne les tailles d'eet
correspondantes ainsi que des mesures qualitatives conventionnelles. Il présente
également de façon très clair les relations entre le risque de première espèce, la
puissance, la taille d'eet et la taille d 'échantillon dans un test d'hypothèse.
Enn, il présente les tailles d'échantillon nécessaire an d'obtenir une puissance
satisfaisante (1 − β = 0.80) pour les trois tailles d'eet conventionnellement
dénies.
8.2 La situation : des données numériques appariées
Haguenauer et al. [18] étudie la diérence d'ecacité entre deux positions
de la jambe de retour dans le patinage artistique : la position en exion et la
position en extension.
La vitesse (m/s) atteinte sera la mesure de comparaison. Spt patineurs de
niveau national ont participé à cette étude, ce qui est évidemment bien peu.
An d'optimiser cette expérimentation, un dispositif apparié a été employé :
chaque patineur a été observé dans les deux conditions.
Les données sont disponibles dans le chier PATINEURS.xls comportant
dans deux colonnes : extension et exion les deux mesures prises sur chaque
sujet.
61
62CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI
8.3 Compréhension de la diérence entre échantillons appariés (mesures répétées ou blocs)
et échantillons indépendants
De telles mesures sont dites mesures répétées. Ceci signie que sur les mêmes
individus plusieurs mesures sont eectuées soit à des dates diérentes (mesures
longitudinales ) soit dans des conditions diérentes. Il se peut aussi que des
individus diérents soient regroupés deux par deux sur des caractéristiques telles
que le sexe, l'âge, les performances passées et que l'on souhaite comparer leurs
performances dans diérentes conditions. On parle alors de dispositifs en blocs.
Les deux situations (deux mesures sur les mêmes individus ou même mesure
sur deux individus diérents) sont similaires, on parle de mesures appariées. On
va prendre en compte une proximité attendue entre les résultats de chaque paire
an d'obtenir des résultats plus précis.
8.4 Graphiques pour échantillons appariés
Le premier graphique réalisable avec Rcmdr est le nuage de points. Il s'agit
de représenter les deux mesures appariés dans un plan cartésien. An de rendre
ce graphique plus lisible, il vaut mieux (1) employer la même échelle pour X et
pour Y et (2) rajouter la première bissectrice dans le graphique.
8.4.1 Le graphe parallèle
Toutefois, le graphique le plus ecace est sans doute le graphe parallèle. Ce
graphe n'est malheureusement pas inclus dans Rcmdr et demande une programmation. En revanche, j'ai créé une fonction R qui se nomme parallelplot dont on
peut disposer dans Rcmdr avec les étapes suivantes :
1. placer dans le répertoire courant le chier SC2007.R
2.
Dans la fenêtre Rgui, choisir le menu déroulant "Fichier" et l'option "Sourcer du code R". Utiliser alors la fenêtre de dialogue pour charger le chier
SC2007.R.
3. Revenir dans la fenêtre de script du Rcmdr, il est possible d'utiliser la
fonction parallelplot.
Pour obtenir la gure 8.1, on peut ainsi taper la commande :
parallelplot(patineurs$extension,patineurs$exion,
glab=c("Extension","Flexion"),ylab="Vitesse (m/s)")
Il est très clair que pour toutes les patineurs sauf un (ligne en rouge), l'écart
a diminué, c'est-à-dire que la vitesse est plus faible en exion qu'en extension.
2.1
8.4. GRAPHIQUES POUR ÉCHANTILLONS APPARIÉS
63
●
●
●
●
●
●
●
●
1.8
1.9
●
●
●
●
1.6
1.7
Vitesse (m/s)
2.0
●
●
Extension
Flexion
Fig. 8.1 Graphe parallèle des vitesses en extension et en exion pou l'étude
des patineurs
64CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI
8.4.2 Le graphe des diérences
Une autre approche graphique va être utilisable qui va nous conduire directement aux techniques statistiques inférentielles que nous utiliserons. Il s'agit
de s'intéresser aux diérences entre les deux mesures, si ces diérences sont globalement positives, il y a augmentation de la vitesse d'une condition à l'autre,
si elles sont négatives il y a bien sûr diminution.
Pour réaliser cette étude, il faut employer dans Rcmdr le menu déroulant
"Données", l'option "Gérer les variables dans le jeu de données actif", "Calculer
une nouvelle variable". Dans la fenêtre de dialogue, employer en l'espèce comme
nom de la nouvelle variable : Di et comme "Expression à calculer" : ExtensionFlexion. Tous les graphiques adaptés à l'étude d'une variable numérique sont
alors envisageable, la norme à considérer étant la valeur zéro qui forme la limite
entre augmentation et diminution.
On peut voir dans la gure 8.2 une ligne de points avec la norme ajoutée. Il
est claire que la diérence entre la valeur en extension et la valeur en exion est
généralement positive, c'est-à-dire que la vitesse diminue.
Exercice 91
Les valeurs de créatine-phosphokinase (CPK) ont été mesurées en
deux occasions sur les avants de l'équipe de France de rugby (chier CPK.xls)
par Dine [19]. Cette enzyme peut être employée comme un marqueur de la fatigue
musculaire. On veut caractériser l'évolution de l'état de forme général. Réaliser un graphe adapté à l'étude de l'évolution. Qu'en concluez-vous sur l'état
général ? Comment préciser les résultats ?
8.5 Statistiques et taille d'eet
L'hypothèse de référence est qu'il n'y a pas de diérence entre les deux
mesures (X =Extension et Y =Flexion). L'eet recherché est l'existence d'une
diérence.
La taille d'eet va donc être soit absolue en mesurant la diérence MX −MY
entre les moyennes des deux mesures soit relative en rapportant cette diérence
à un écart-type.
Il y a ici deux possibilités, l'écart-type peut être soit l'écart-type des diérences SDD (D = X − Y )soit l'écart-type d'une des deux mesures, nous prendrons ici comme mesure de référence celle en extension, qui est la méthode
usuelle en patinage artistique1 , c'est-à-dire SDX .
Les deux tailles d'eet standardisées envisageables sont donc :
dD =
MX − MY
SDD
dX =
MX − MY
.
SDX
et
1 Il n'est pas toujours très clair de savoir quelle est la mesure de référence, dans le cadre de
mesures longitudinales, on prend la mesure de début d'étude
8.5. STATISTIQUES ET TAILLE D'EFFET
0.00
0.05
65
0.10
0.15
0.20
Différences de vitesse
Fig. 8.2 Ligne de points des diérences de vitesse entre la condition en extension et la condition en exion de la jambe de retour pour l'étude des patineurs
66CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI
Nous préférons employer la quantité dD proposée par Cohen [3] et comparable aux tailles d'eet conventionnelles (0.20, 0.50 et 0.80).
On obtient les statistiques nécessaires à ces calculs à l'aide du menu déroulant "Statistiques", l'option "Résumés", puis "Statistiques descriptives", en
sélectionnant les trois variables (X =Début, Y =Fin et D=Di). Sur les données de Haguenauer, nous trouvons comme taille d'eet absolue : 1.9628571 −
1.8542857 = 0.1085714m.s−1 et comme tailles d'eet relatives : dX = (1.9628571−
1.8542857)/0.17857905 = 0.61 ou dD = (1.9628571 − 1.8542857)/0.09788234 =
1.11. Nous avons incontestablement aaire à un eet de grande taille.
Exercice 92
Quelles tailles d'eet peut-on associer à l'évolution de la CPK
chez les rugbymen ?
8.6 Intervalles de conance
Dénition 93
L'intervalle de conance au niveau
NC
de la diérence entre
les espérances mathématiques de deux populations appariées est donné par les
σc
quantités D ± t × √D où t peut être obtenu comme quantile de la loi de Student
n
2
à n − 1 degrés de liberté .
Pour réaliser ce calcul, utiliser le menu déroulant "Statistiques", l'option
"Moyennes" puis "t-test apparié". Dans la fenêtre de dialogue, déclarer comme
première variable X =Extension et seconde variable Y =Flexion. Nous obtenons
ici un intervalle au niveau N C = 95% s'étendant de 0.02 à 0.20 (m.s−1 ).
Exercice 94
Calculer un intervalle de conance au niveau
N C = 90% de l'évo-
lution de la CPK chez les rugbymen.
8.7 Test d'hypothèses
Dénition 95
Deux populations sont étudiées de façon appariées. On suppose
D = X − Y suit le modèle probabiliste
N (µD = µX − µY , σD ). Pour tester l'hypothèse H0 : µX − µY = 0, on
utilise le test t de Student apparié. On calcule à partir de la moyenne MD et de
l'écart-type SDD observés sur un échantillon de diérences de taille n le T-score
que la diérence entre les deux mesures
normal
t=
MD − 0
√ .
SDD / n
La probabilité critique de l'hypothèse nulle
Ha(1) : µX − µY > 0 est égale à la probabilité que la loi
n − 1 d.d.l. soit plus élevée que t.
contre l'hypothèse Ha(2) : µX − µY < 0 est égale à la probabilité que cette
même loi soit plus petite que t.
contre l'hypothèse
de Student à
2à
l'aide de la formule q = 1 −
1−N C
2
pour déterminer le quantile
8.7. TEST D'HYPOTHÈSES
Ha(3) : µX − µY
loi soit plus éloignée de zéro que t.
contre l'hypothèse
67
6= 0
est égale à la probabilité que cette
Les calculs sont réalisés de la même façon qu'avec l'intervalle de conance. Ne
sachant quelle est la condition la meilleure initialement, il est logique de choisir
l'hypothèse alternative Ha(3) : µX − µY 6= 0. On obtient donc t = 2.9347, 6
degrés de liberté et p = 0.02613 comme probabilité critique. La diérence est
statistiquement signicative au seuil classique de 5%.
Exercice 96
Tester l'évolution de la CPK chez les rugbymen. Attention à dé-
nir correctement l'hypothèse alternative.
Exercice 97
P. Chabaud (CRIS, université Lyon1) a mesuré le temps de ré-
action de quatre groupes d'individus (handballeur, grimpeur, sprinter et non
sportifs) dans cinq conditions dont une condition témoin et une condition notée "TRSP.Fixe" où l'individu était prévenu que le stimulus attendu allait venir
prochainement. Nous allons limiter nos investigations à la comparaison entre la
condition témoin et la condition "TRSP.Fixe".
Tester si pour le groupe des non-sportifs, une diérence est observée entre
ces deux conditions (sélectionner le sous-ensemble d'individus correspondant).
Calculer un intervalle de conance de cette diérence, toujours pour les
non-sportifs.
Calculer les intervalles de conance pour les trois groupes de sportifs.
Calculer une variable "di" pour l'ensemble des individus faisant la différence entre la condition témoin et la condition "TRSP.Fixe". Utiliser
ensuite le menu déroulant "Graphes" et l'option "Graphe des moyennes".
Sélectionner comme Facteur : Pratique, comme variable de réponse : di et
comme Barre d'erreur : intervalle de conance. Que représente le graphe
obtenu ?
Remarque 98
Il serait intéressant de comparer les quatre groupes sur
l'ensemble des cinq conditions, et ensuite de passer à des comparaisons
soit entre les groupes soit entre les conditions. Il s'agit du domaine appelé
en statistique
analyse de mesures répétées
année de master.
qui sera abordé en deuxième
68CHAPITRE 8. ETUDE INFÉRENTIELLE DE MESURES NUMÉRIQUES RÉPÉTÉES (2 CONDITI
Chapitre 9
Etude inférentielle de
comparaison de deux groupes
indépendants
9.1 La lecture du jour : Diaconis & Efron [11]
Cet article de vulgarisation montre le changement considérable qui s'est produit dans la science statistique avec l'avènement des micro-ordinateurs. Il est
désormais possible de réaliser facilement des graphiques ou des calculs (régression multiple, analyse multivariée) impensables quelques années auparavant. Au
delà de ces mises à disposition de techniques connues, des méthodes radicalement nouvelles (bootstrap, validation croisée, lissage, estimateur de densité...)
ont été inventées. Elles s'aranchissement de nombreuses hypothèses qui étaient
nécessaires an de pouvoir concrètement réaliser les calculs. Ces nouvelles méthodes malgré leur supériorité et leur caractère souvent intuitif sont loin d'avoir
encore été diusées dans la pratique.
9.2 La situation : deux groupes indépendants de
mesures numériques
C. Verdot [20] étudie l'apport de l'activité physique dans des conditions
carcérale. Elle compare deux groupes de détenus : un groupe (n=14) qui a été
entraîné 3 fois par semaine pendant cinq mois, et un groupe de contrôle (n=11),
qui est resté sédentaire. La mesure que nous retiendrons est celle du stress,
évalué d'après le questionnaire PSS14.
Un problème de cette étude est l'impossibilité de réaliser une randomisation
des deux groupes (pour des raisons éthiques) aussi il est très important de
comparer initialement les deux échantillons.
69
70CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA
Le chier STRESS.xls indique pour les 25 individus la mesure de stress en
début d'étude (variable PSSt0) et l'appartenance au groupe (variable groupe).
9.3 Les graphiques pour deux échantillons indépendants
L'idée fondamentale est d'employer les graphiques habituels pour mesures
numériques (ligne de points, histogramme, boite de dispersion, graphe quantilequantile) mais (1) en réalisant un graphe pour chaque groupe et (2) à la même
échelle.
Le graphique le plus classique est celui où des boites de dispersion sont comparées. Pour l'obtenir à partir de Rcmdr, choisir le menu déroulant "Graphes",
l'option "Boite de dispersion". Dans la fenêtre de dialogue, indiquer le nom de
la variable numérique (ici PSSt0) et cliquer sur le bouton "Graphe par groupe"
pour préciser le nom de la variable d'appartenance (ici groupe).
La gure 9.1 montre une diérence entre les deux équipes. Le stress est plus
faible dans le groupe de contrôle (avec une médiane de 15) que dans le groupe
de sportifs (environ 22), ce qui est ennuyeux car les deux groupes devraient
initialement être comparables. Peut-être ont-ils choisi parce qu'il étaient plus
stressés de participir à l'étude ce qui peut biaiser les résultats.
Remarque 99
On obtient un graphique intéressant dit collection de lignes de
points en tapant dans la fenêtre de script et en soumettant la commande suivante :
stripchart(prison$PSSt0 prison$groupe,method="stack",xlab="Stress")
Exercice 100
La pratique de la natation développe normalement la muscula-
ture de l'épaule mais aussi sa souplesse. L'étude de Monteil et al. [23] vise à
mesurer les diérences de laxité entre de nageurs (n
(n
= 15)
= 15)
et des sédentaires
du même âge. Le chier NAGEURS.xls contient en particulier la
exion de l'épaule droite de ces individus (variable FED en degrés) et leur statut (variable statut).
Réaliser une collection de boite de dispersion de ces données. Réaliser une
collection de lignes de points. Qu'observez-vous ?
9.4 Les tailles d'eet
L'hypothèse de référence est qu'il n'y a pas de diérence (de moyennes) entre
les mesures (X et Y )deux groupes. Pour mesurer l'éloignement à cette hypothèse, on emploiera tout naturellement comme taille d'eet absolue la diérence
entre les deux moyennes observées : MX − MY .
Nous obtenons pour les données de stress : 22.5 − 16.36364 = 6.13636 points
de PSS, ce qui semble considérable.
71
15
0
5
10
PSSt0
20
25
30
9.4. LES TAILLES D'EFFET
reference
sportifs
groupe
9.1 Collection de boites de dispersion pour comparer le stress du groupe
de référence au groupe de sportifs
Fig.
72CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA
An de calculer une taille d'eet relative, il y a deux possibilités, soit utiliser l'écart-type d'un des deux groupes, celui du groupe dit de contrôle lorsqu'il
existe, soit utiliser un compromis entre ces deux écarts-types qui est généralement calculé de la façon suivante :
s
2 + (n − 1)SD 2 ))
(nX − 1)SDX
Y
Y
σ
b=
.
(nX − 1) + (nY − 1)
Remarque 101
An d'obtenir cet écart-type compromis, on peut soit eectuer
le calcul explicitement soit utiliser l'astuce suivante : Dans le menu déroulant
"Statistiques", prendre l'option "Moyennes" et "ANOVA à un facteur". La fenêtre de sortie comporte un résultat qui s'appelle "Analysis of Variance Table".
La quantité à droite sur la dernière ligne de cette table (pour nos données :
65.57) est le carré de ce compromis. Il faut alors écrire dans la fenêtre de script :
sqrt(65.57)
et soumettre pour obtenir le résultat :
Dénition 102
On appelle alors
∆
∆=
et
g
de Hedge :
g ==
SD = 8.1.
de Glass
MX − M Y
SDX
MX − MY
.
σ
b
Nous obtenons pour les données de Verdot : ∆ = (22.5−16.36364)/10.744978 =
0.57 (avec l'écart-type de l'équipe 1) et g = (22.5 − 16.36364)/8.1 = 0.76. Ces
valeurs sont comparables aux tailles d'eet conventionnelles (0.20, 0.50 et 0.80).
Nous obtenons donc un eet de moyen à fort.
Exercice 103
Calculer pour les données de Monteil et al., la taille d'eet ab-
solue, ainsi que
∆
et
g.
Comparer ces tailles d'eet relatives aux tailles conven-
tionnelles.
9.5 Intervalle de conance
Le modèle statistique consiste en deux populations suivant des lois normales
N (µX , σ) et N (µY , σ). Notons que les écarts-types des populations sont censées
être les mêmes, si ce n'est pas le cas, il faut employer un autre modèle statistique
et donc une autre méthode pour calculer les intervalles de conance et les test
qu'on appelle méthode de Welch1 . Les deux échantillons sont indépendants.
Dénition 104
L'intervalle de conance au niveau
NC
de la diérence entre
les espérances mathématiques de deux populations est donné par les quantités
M X − MY ± t ×
Student à
q
1
nX
+
nX + nY − 2
1
nY
σ
b
où
t
peut être obtenu comme quantile de la loi de
2
degrés de liberté .
1 et en l'espèce, les écarts-types des deux groupes sont relativement
2 à l'aide de la formule q = 1 − 1−N C pour déterminer le quantile
2
diérents
9.6. TEST D'HYPOTHÈSES
73
Le calcul se réalise automatiquement en utilisant le menu déroulant "Statistiques", l'option "Moyennes" puis "t-test indépendant". Attention, dans la
fenêtre de dialogue, à la question "Variances égales ?", il faut donner la réponse
"oui", qui n'est pas l'option par défaut ! Avec les données de stress, nous obtenons un intervalle de conance à N C = 95% s'étendant de −12.9 à 0.6. Bien
qu'une valeur nulle ne puisse être exclue et que la largeur de l'intervalle soit
considérable, la diérence entre les deux groupes semble signicative.
Remarque 105
Comme cela a été signalé ci-dessus, les écarts-types des deux
groupes sont assez diérents, on peut employer la méthode de Welch, en reprenant la même procédure informatique mais en donnant à la question "Variances
égales ?" la réponse par défaut "oui".
Exercice 106
Calculer un intervalle de conance pour la diérence de exion
droite chez les nageurs. Calculer un intervalle de conance pour la exion gauche
(variable FEG). Représenter graphiquement ces deux intervalles de conance à
l'aide du graphe des moyennes.
9.6 Test d'hypothèses
Dénition 107
Pour tester dans deux populations normales, d'écarts-types iden-
σ , l'hypothèse que leurs espérances mathématiques sont égales (H0 :
µX = µY ), on utilise le test de Student pour échantillons indépendants. On
calcule pour les moyennes observées MX et MY des deux échantillons de tailles
nX et nY le score normalisé suivant qui servira de statistique de test :
tiques
t=
M − MY
qX
.
σ
b ( n1X + n1Y )
La probabilité critique de l'hypothèse nulle
Ha(1) : µX > µY est égale à la probabilité que la loi de
nX + nY − 2 degrés de liberté soit plus élevée que t.
contre l'hypothèse Ha(2) : µX < µY est égale à la probabilité que la même
loi soit plus petite que t.
contre l'hypothèse Ha(3) : µX 6= µY est égale à la probabilité que cette loi
soit plus éloignée de zéro que t.
contre l'hypothèse
Student à
Les calculs s'obtiennent par la même procédure que pour les intervalles de
conance, en choisissant soigneusement les hypothèses alternatives. Nous obtenons en choisissant l'hypothèse alternative Ha(1) : µX 6= µY (car on ne pensait pas initialement qu'il puisse y avoir une diérence entre les deux groupes),
t = −1.8809, et avec 23 degrés de liberté, une probabilité critique de p = 0.07271.
Le test n'est pas statistiquement signicatif au seuil habituel de 5%. Toutefois,
la faible atille de l'échantillon, l'importance de la taille d'eet et la proximité de
la probabilité critique du seuil sacré de 5% font que cette conclusion doit être
largement nuancée.
74CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA
Exercice 108
Réaliser un test de la diérence entre nageurs et sédentaires pour
la exion droite. Est-il signicatif au seuil habituel ? Ce résultat est-il généralisable ?
Exercice 109 Reprendre les données de Ferrand (ALIMENTATION.xls, exercice ??) concernant les désordres alimentaires chez les jeunes lles. En sélectionnant correctement les bons sous-ensemble de données, comparer l'estime de
soi des jeunes lles non sportives aux gymnastes, puis aux nageuses.
Exercice 110
En reprenant les données de Chabaud (TR.xls), comparer en
condition témoin, les non-sportifs, aux sprinters, puis les handballeurs aux grimpeurs.
Remarque 111
Dans les deux exercices précédents, il conviendrait d'employer
une méthode qui compare simultanément plus de deux groupes. Cette technique
s'appelle l'analyse de variance et sera étudiées dans le cadre du master MPS
deuxième année.
9.7 Introduction au bootstrap
9.7.1 Un exemple "simple"
La procédure classique de calcul de l'intervalle de conance est complexe,
elle fait appel à la théorie des lois de probabilité et revient pour chaque situation
à une formule mathématique diérente. Il est possible de procéder tout autrement avec une méthode qui permet de nombreuses extensions : le bootstrap.
Le bootstrap (Efron et Tibshirani, 1993 ; Jonhson, 1999) est une méthode de
ré-échantillonnage informatique qui permet de réaliser de l'inférence statistique
en passant par un algorithme informatique toujours semblable. La grande question de la statistique inférentielle est la suivante : " que devient la statistique si
on répète l'échantillonnage (sur des unités issues de la même population) ? " Le
bootstrap y répond de façon étonnamment simple en disant que l'échantillon est
ce qui peut le mieux remplacer la population originelle, il sut par conséquent
de tirer avec remplacement le même nombre d'individus dans l'échantillon - et
non pas dans la population- et de calculer la statistique sur ce nouvel échantillon dit échantillon bootstrap. Rien n'empêche alors de recommencer ce tirage
par exemple B=2000 fois et donc d'obtenir une idée concrète sur la distribution
de la statistique dite distribution bootstrap lorsqu'on répète l'échantillonnage.
On peut en particulier construire un histogramme de cette distribution bootstrap, calculer son écart-type qui est donc l'erreur standard de la statistique V
et déterminer des intervalles de conance du paramètre d'intérêt.
Voyons sur un exemple le fonctionnement de cette procédure. Nous allons
reprendre les données du chier ALIMENATION.xls qui concernent n = 152
jeunes lles. Il s'agit de comparer la moyenne de l'estime de soi à la norme de
32.88. Un calcul classique d'intervalle de conance avec le t de Student donne
pour intervalle de la moyenne : 27.86 < µ < 29.36 ce qui exclue nettement la
9.7. INTRODUCTION AU BOOTSTRAP
75
norme.Pour calculer un intervalle de conance par bootstrap, nous allons tirer un échantillon de 152 jeunes lles avec remplacement parmi l'échantillon
de départ, puis calculer sa moyenne. On parle de réplication bootstrap. Ce rééchantillonnage sera recommencé B=1000 fois ! Nous obtenons donc une distribution dite distribution boostrap de la statistique d'intérêt (la moyenne) que
l'on peut représenter sur un histogramme (voir gure 9.2). L'écart-type de cette
distribution donne l'erreur standard (dont il se trouve que l'on a une formule
exacte dans le cas de la moyenne) qui est ici de SE = 0.37. On peut calculer
un intervalle de conance, il existe plusieurs méthodes, mais l'intervalle BCa est
souvent présenté comme étant le meilleur, il donne une valeur de (27.82, 29.31 )
tout à fait en cohérence avec l'intervalle classique. Les lignes de code ci-dessous
montrent avec le package boot comment obenir ce résultat.
require(boot)
mean.npara<function(x,i){
stat<-mean(x[i])
stat}
boot.essai1<-boot(data=ALIMENTATION$ES,statistic=mean.npara,
R=1000,sim="ordinary",stype="i")
boot.essai1
boot.ci(boot.essai1)
Le bootstrap donne donc des résultats similaires à la proposition théorique
habituelle. Mais il peut faire mieux. Ainsi, nous pouvons nous intéresser à la
taille d'eet de Cohen c'est-à-dire au paramètre :
d=
µ − norme
σ
Ce paramètre est estimé par la statistique dˆ = x̄−norme
. Nous obtenons
SD
en l'espèce : dˆ = −0.91. L'intervalle BCa de conance est de (-1.08, -0.74) ce
qui exclut clairement 0 du champ des possibles. On peut voir dans le listing
ci-dessous qu'une modication mineure de l'algorithme a été nécessaire.
(mean(ALIMENTATION$ES)-32.88)/sd(ALIMENTATION$ES)
ES.d.npara<function(x,i,norme){
stat<-(mean(x[i])-norme)/sd(x[i])
stat}
boot.essai2<-boot(data=ALIMENTATION$ES,statistic=ES.d.npara,
R=1000,sim="ordinary",stype="i",norme=32.88)
boot.ci(boot.essai2)
0
50
100
n
150
200
76CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA
27.5
28.0
28.5
29.0
29.5
Réplications bootstrap de la moyenne
9.2 Histogramme de 1000 réplications bootstrap de la moyenne pour
l'estime de soi de 152 jeunes lles
Fig.
30.0
9.7. INTRODUCTION AU BOOTSTRAP
77
Il est possible de calculer un intervalle de conance du paramètre en utilisant
une théorie statistique complexe mariant loi de Student décentrée et théorie de
l'inversion des tests. On en a une explication détaillée dans Smithson (2003) et
la fonction ci.ES.simple.t.test fournie dans l'environnement de travail ES.Rdata.
Elle donne un intervalle de (-1.10,-0.72), autrement dit similaire. Cette fonction
repose sur l'hypothèse de normalité des données contrairement au bootstrap qui
ne la nécessite pas. Elle peut toutefois être utile dans le cas de résultats tirés de
la littérature, où l'on ne possède pas le détail des données (donc où le bootstrap
n'est pas possible sauf pour une version dite paramétrique) mais seulement M,
SD, n et la norme. C'est souvent le cas lorsque l'on réalise une méta-analyse.
ci.ES.simple.t.test(M=mean(ALIMENTATION$ES),SD=sd(ALIMENTATION$ES),norme=32.88,n=152)
Mais il est également possible de s'intéresser à des statistiques nouvelles
avec le bootstrap, dont on ne connaît pas, au plan probabiliste, la distribution
d'échantillonnage. La robustesse est un autre thème moderne de la statistique.
Il est possible de proposer une version robuste du d de Cohen. Elle est basée sur
une moyenne et un écart-type robustes (de Huber). Nous obtenons un intervalle
de conance BCa : (-1.0503, -0.6968 ).
require(MASS)
ES.ROBd.npara<function(x,i,norme){
stat0<-hubers(x[i])
stat<-(stat0$mu-norme)/stat0$s
stat}
boot.essai3<-boot(data=ALIMENTATION$ES,statistic=ES.ROBd.npara,
R=1000,sim="ordinary",stype="i",norme=32.88)
boot.ci(boot.essai3)
9.7.2 Un exemple "multivarié"
Il est parfois intéressant de calculer des statistiques qui portent sur plusieurs
variables. L'exemple le plus classique est celui du coecient de corrélation linéaire. La procédure bootstrap est similaire, on va tirer avec remplacement
depuis l'échantillon des unités statistiques. Elles comprendront simplement plusieurs mesures (2 en l'espèce) à partir desquelles on pourra calculer des réplications de la statistique d'intérêt.
Toujours pour le chier ALIMENTATION, on peut se poser le problème de la
corrélation entre la mesure d'estime de soi corporelle et le BMI. Le coecient de
corrélation observé est de -0.2754383. On peut obtenir un intervalle de conance
par des méthodes classiques mais qui reposent sur une hypothèse de binormalité,
on obtient alors −0.4163807 < ρ < −0.1215684 ou alors par bootstrap et on
obtient dans ce cas −0.4044 < ρ < −0.1419.
78CHAPITRE 9. ETUDE INFÉRENTIELLE DE COMPARAISON DE DEUX GROUPES INDÉPENDA
ES.r.npara<function(x,i){
stat<-cor(x[i,1],x[i,2])
stat}
boot.essai4<-boot(data=cbind(ALIMENTATION$BES,ALIMENTATION$BMI),
statistic=ES.r.npara,R=1000,sim="ordinary",stype="i")
boot.ci(boot.essai4)
9.7.3 Un exemple avec "strates"
On veut comparer le BMI dans les diérents groupes de jeunes lles (contrôle,
NS, GRS). On peut donc réaliser une analyse de variance et calculer le rapport
de corrélation. On obtient un IC par bootstrap de 0.0216 < η 2 < 0.1928. Le
rééchantillonnage a cette fois lieu à l'intérieur des groupes (on parle de strates).
ES.eta2.npara<function(x,i){
y<-x[i,1]
f<-x[i,2]
stat<-summary.lm(aov(y∼f))$r.squared
stat}
boot.essai5<-boot(data=cbind(ALIMENTATION$BES,ALIMENTATION$Nomination),
statistic=ES.eta2.npara,R=1000,sim="ordinary",stype="i",
strata=ALIMENTATION$Nomination)
boot.ci(boot.essai5)
Chapitre 10
Etudes inférentielles
concernant des proportions
10.1 La lecture du jour : Schechtman [12]
Cet article montre les diérentes taille d'eet et intervalle de conance qui
peuvent être calculés - Les procédures calculatoires sont d'ailleurs clairement
présentées - lorsque deux proportions sont comparées. Cette situation, très courante dans le domaine médicale, donne lieu à une terminologie particulière en
termes de risques.
L'auteur conclut sur la nécessité de combiner deux types de taille d'eet, une
mesure absolue plus utile pour l'interprétation pratique (clinique) et une mesure
absolue, plus utile pour résumer l'importance de la preuve. Ces conclusions
peuvent sans doute également s'appliquer aux autres situations déjà étudiées :
comparaison de moyennes...
10.2 La situation
Est-ce que le fait de jouer à domicile en football constitue un avantage, en
particulier en ce qui concerne l'arbitrage ? Sur 26 matchs de haut niveau, deux
observateurs ont noté que l'équipe qui reçoit a commis 1893 irrégularités et a
été sanctionnée 661 fois contre 1971 fautes pour l'équipe visiteuse dont 791 ont
été réprimées.
79
80CHAPITRE 10. ETUDES INFÉRENTIELLES CONCERNANT DES PROPORTIONS
10.3 Les statistiques et tailles d'eet pour les proportions
10.3.1 Notations et proportions
La situation est donc celle de l'étude d'une variable binaire (faute sanctionnée
ou non) observée dans deux groupes (équipe à l'extérieur ou à domicile). Il y
a n1 unités dans le groupe 1 et n2 dans le second. Dans le premier groupe x1
éléments sont considérés comme un succès (au sens de la distribution binomiale)
et respectivement x2 dans le second.
Pour bien comprendre la notation, nous avons pour le problème de l'arbitrage, l'équipe visiteuse qui a eu x1 = 791 fautes sanctionnées sur n1 = 1971
fautes et donc n1 − x1 = 1971 − 791 = 1180 fautes non sanctionnée.
groupe 1
x1
n1 − x1
n1
Succès
Echec
Total
groupe 2
x2
n2 − x2
n2
10.1 Eectifs dans le cas d'une variable binaire (Succès/Echec) mesurée
dans deux groupes
Tab.
Les statistique essentielles sont bien entendues les proportions observées,
c'est-à-dire : p1 = nx11 et p2 = nx22 . On obtient ainsi pour l'équipe visiteuse :
p1 = 791/1971 = 0.401 et pour celle qui reçoit : p2 = 668/1893 = 0.349. Il
semble bien que l'équipe qui reçoit soit moins sanctionnée.
10.3.2 Tailles d'eet absolues
Dénition 112
La mesure la plus classique est la diérence de proportions ou
1
diérence de risque , il s'agit de :
DR = p1 − p2 .
En l'espèce nous obtenons : DR = 0.052 soit une diérence de 5%.
Remarque 113
Dans le domaine médical, l'inverse de la diérence de propor-
tions est parfois calculé, on appelle cette quantité le nombre à traité (number to
treat NTT).
10.3.3 Tailles d'eet relatives
Dénition 114
1 appelée
Nous considérerons trois mesures de taille d'eet relative
absolute risk reduction (ARR) dans la référence [12]
10.4. INTERVALLES DE CONFIANCE POUR DES PROPORTIONS
81
le rapport de proportion, appelé aussi risque relatif :
RR =
le "odds-ratio" :
OR =
et la taille d'eet
hC
p1
,
p2
p1 /(1 − p1 )
p2 /(1 − p2 )
de Cohen
√
√
hC = 2arcsin( p1 ) − 2arcsin( p2 ).
Les risque relatif est l'indicateur le plus couramment utilisé, il est en l'espèce
égale à RR = 0.401/0.349 = 1.149. L'interprétation est relativement aisée, la
proportion de sanctions de l'équipe visiteuse est 15% plus élevée que celle qui
reçoit. Le résultat exprimé en termes de risque relatif donne une idée bien diérente de celui exprimé en termes de diérence de risque, en particulier lorsque
les proportions sont petites.
Le "odds-ratio" est une quantité très intéressante car elle se prête facilement
à des ajustements de proportions par rapport à d'autres variables (âge, sexe...)
grâce à une méthode appelée régression logistique. Les études médicales sophistiquées sont souvent exprimées par cet indicateur. Nous trouvons en l'espèce :
OR = 0.401/(1−0.401)
0.349/(1−0.349) = 1.249. Il faut juger de cette quantité par rapport à la
valeur 1. Au dessus de 1, la première proportion est plus élevée, en deça elle est
plus basse.
Nous trouvons hC = 0.108 avec la méthode de Cohen2 . Cette dernière est
moins employée dans le domaine médical mais elle est en liaison directe avec des
calculs de puissance des tests et bénécie en outre d'une proposition d'évaluation
qualitative conventionnelle avec un eet faible lorsque hC = 0.2, un eet moyen
lorsque hC = 0.5 et d'un eet fort lorsque hC = 0.8. L'eet observé hC = 0.108
est ainsi jugé plus que faible.
10.4 Intervalles de conance pour des proportions
Les intervalles de conance pour les proportions s'obtiennent selon les méthodes de calcul décrites dans l'article [12]. L'intervalle de conance de la diérence de proportions s'obtient directement en utilisant la fonction prop.test sous
la forme :
prop.test(x=c(791,661),n=c(1971,1893),conf.level = 0.95)
ce qui donne ici (0.021 − 0.083). Le grand nombre d'observations fait que cet
intervalle est peu étendu et clairement diérent de zéro.
An d'obtenir des intervalles de conance pour les tailles d'eet relatives, il
faut "sourcer le chier R" SC2007.R ce qui donne accès aux fonctions CI.RR,
2 Charger
le package "pwr" et employer la commande : ES.h(791/1971,661/1893)
82CHAPITRE 10. ETUDES INFÉRENTIELLES CONCERNANT DES PROPORTIONS
CI.OR et CI.hC qui fonctionnent avec les mêmes arguments que la fonction
prop.test.
Nous obtenons respectivement pour RR : (1.059−1.247), pour OR : (1.096−
1.424) et pour hC : (0.045 − 0.171).
10.5 Tests d'hypothèses pour des proportions
On va modéliser le nombre de sanctions comme étant une variable binomiale
pour chaque équipe avec pour l'équipe recevant (variable X1 ) les paramètres
n1 = 1893 et π1 et pour l'équipe qui visite (variable X2 n2 = 1917 et π2 . La
question est de savoir si les deux probabilités de succès sont diérentes et plus
particulièrement en l'espèce si H0 : π1 = π2 contre Ha : π2 > π1 .
Dénition 115
Pour tester dans deux populations/modèles binomiaux l'hypo-
thèse que leurs probabilités de succès soient égales (H0
: π1 = π2 ), on calcule,
x1 et x2 observés dans les deux échantillons
x
x +x
x
proportions p1 = n1 , p2 = n2 et p∗ = n1 +n2 . On peut
1
2
1
2
à partir des nombres de succès de tailles n1 et n2 , les
alors dénir le Z-score qui servira de statistique de test :
p 1 − p2
z=q
1
( n1 + n12 )p∗ (1 − p∗ )
La probabilité critique de l'hypothèse nulle
Ha(1) : π1 > π2 est égale à la probabilité que la loi
normale standard soit plus élevée que z .
contre l'hypothèse
Ha(2) :
loi soit plus petite que z .
contre l'hypothèse
π1 < π 2
est égale à la probabilité que la même
6= π2
z.
est égale à la probabilité que cette loi
Ha(3) : π1
soit plus éloignée de zéro que
contre l'hypothèse
On obtient en l'espèce p1 = 0.349, p2 = 0.413 et
p∗ =
661 + 791
= 0,381.
1893 + 1917
. La statistique de test s'élève ici à
z=q
0,349 − 0,413
1
( 1893
+
1
1917 )
× 0,381 × (1 − 0,381)
= −4,06.
La probabilité qu'une loi normale prenne une valeur inférieure à -4.06 est de
0.000025. L'hypothèse nulle semble peu compatible avec les données, on décide
que l'arbitrage est bien inuencé à domicile.
La fonction prop.test réalise un calcul proche, on obtient une probabilité
critique en version bilatérale de p = 0.0009265. Lorsdqu'on dispose des données
par individus, on peut employer l'interface Rcmdr et l'option "Statistiques" puis
"Proportions" et "Test de proportions bivarié".
10.5. TESTS D'HYPOTHÈSES POUR DES PROPORTIONS
Remarque 116
Les calculs de puissance peuvent se faire soit en utilisant la
fonction de R dite
du package
pwr.
Remarque 117
83
power.prop.test
soit les fonctions
pwr.2p.test
et
pwr.2p2n.test
Lorsque l'on souhaite comparer plus de deux groupes, ou bien
le faire sur une variable catégorielle comportant plus de deux catégories, on se
retrouve dans une situation où le croisement des deux informations forme un
tableau croisé. Les méthodes d'étude de ces tableaux, en
méthode du chi-carré d'indépendance de Pearson, seront
particulier la fameuse
vu en deuxième année
de master MPS.
Exercice 118
Une expérience a permis de tester leet d'une crème (acyclo-
vir), censée protéger de l'herpès labial, contre un placebo. Le groupe traité avec
acyclovir présente
18
patients sourant de lésions sur
91
contre
35
sur
90
dans
le groupe de contrôle. On va utiliser un test Z d'égalité de deux proportions an
de démontrer l'ecacité de cette crème de protection.
Quelle forme préconisez-vous pour l'hypothèse alternative ?
Quelle est la diérence entre les deux proportions observées ?
Quelle est la valeur de
Quelle est la valeur de
p∗ , proportion compromis
Z , la statistique de test ?
des deux échantillons ?
Quelle est la direction de l'hypothèse alternative par rapport à
Z?
Quelle est la probabilité critique correspondante ?
Quelle est votre conclusion quant à l'ecacité du traitement ?
Exercice 119
Les étudiants d'origine asiatique sont de plus en plus nombreux
dans les universités américaines. En revanche, les éducateurs physiques d'origine
asiatique y sont plutôt rares. Ils pourraient pourtant servir de modèles et orienter
?
la carrière de ces étudiants. Chen et Hu [ ] ont cherché à comparer les opinions
d'étudiants d'origine asiatique envers l'éducation physique à celles d'étudiants
d'origine caucasienne. L'étude inclut
176
étudiants asiatiques et
237
caucasiens
suivant des cours d'éducation physique dans deux universités californiennes. Les
étudiants, en répondant à un questionnaire, avaient l'opportunité de dire s'ils
avaient ou non été fortement inuencés par leur famille dans le choix de leur
spécialité d'étude. Cinquante quatre étudiants asiatiques ont déclaré que c'était
le cas contre
15
caucasiens.
Tester s'il y a une diérence statistiquement signicative au niveau
5%
entre les réponses des deux types d'étudiants.
Tester la fonction
prop.test
α=
84CHAPITRE 10. ETUDES INFÉRENTIELLES CONCERNANT DES PROPORTIONS
Chapitre 11
Etude inférentielle de
corrélation
11.1 La lecture du jour : Anscombe [13]
L'article de Anscombe est un article pédagogique mettant en garde contre
une approche purement calculatoire de la statistique. Il construit un exemple
où des situations profondément diérentes ne peuvent être distinguées par un
calcul des statistiques de relation (coecient de corrélation linéaire) mais où
un graphique permet de repérer les dicultés. Tout au long de ce chapitre, en
particulier lors des exercices, on verra l'intérêt de ce judicieux conseils sur des
données cette fois réelles.
11.2 La situation : relier deux mesures numériques
La relation entre la fréquence cardiaque maximum (variable FCM) et l'âge
(variable Age) est bien connue, en particulier une formule mnémotechnique est
F CM = 220 − AGE . Le site www.fsp.saliege.com propose des mesures concernant des coureurs à pieds amateurs. Les données (n=13) sont présentées dans
le chier COUREURS.xls. Nous allons voir si cet échantillon s'accorde avec la
formule mathématique proposée.
11.3 Le nuage de points
Le graphique incontournable dans cette situation s'appelle le nuage de points.
Il s'agit simplement de représenter les données dans un graphe cartésien. On
choisit donc une des variables qui est la variable X , qui est la variable explicative
dans une perspective explicative et une variable Y qui est la variable à expliquée
85
86
CHAPITRE 11. ETUDE INFÉRENTIELLE DE CORRÉLATION
dans cette même perspective. Si les deux variables sont sur le même plan et qu'on
cherche simplement à étudier leur relation, peu importe alors le choix de X et
Y.
Ici, il est clair que la variable explicative X est l'âge et la variable à expliquer
Y est la FCM.
Pour obtenir le graphique 11.1, on utilise le menu déroulant "Graphes", puis
"Nuage de points". Dans la fenêtre de dialogue, il n'est pas utile de cocher les
options : "Boites de dispersion marginales" et "Courbe de lissage".
Remarque 120
Dnas un nuage de points, on cherche avant tout à déterminer
s'il existe une relation entre
X
et
Y,
si elle est linéaire, c'est-à-dire si les points sont globalement placés autour
d'une droite, et
le signe de la relation : positif si
Y
augmente en même temps que
X
et
négatif le cas échéant.
On constate que la relation est relativement claire entre les deux variables,
elle paraît linéaire et en tout cas négative.
Exercice 121
Reprendre les données de Monteil et al. (NAGEURS.xls). Sélec-
tionner uniquement les nageurs (n
= 15).
Chercher s'il existe une relation entre
la exion droite et la exion gauche dans ce groupe. Est-elle linéaire ? Quelle
est son signe ?
11.4 Le coecient de corrélation linéaire r
An de quantier la relation entre deux variables numériques on emploie le
notée r. Ce coecient prend ses valeurs de −1
à 1. Proche de −1 la relation est linéaire et négative, proche de 0, il n'y a pas
de relation linéaire, proche de 1 la relation est linéaire et positive.
coecient de corrélation linéaire
Dénition 122
Le coecient de corrélation linéaire
r est un indicateur de rela-
tion entre deux variables numériques. Sa valeur absolue (leq1) indique l'intensité
de la linéarité et son signe le sens de la relation.
Pour ceux qui aiment les formules 123
pour
n
Le coecient de corrélation linéaire
(xi ; yi ) se calcule comme
P
1
i (xi − MX )(yi − MY )
n
.
r=
SDX SDY
couples de mesures
Pour calculer ce coecient, on utilise le menu déroulant "Statistiques", l'option "Résumés" puis "Test de corrélation". Attention, dans la fenêtre de dialogue, il faut sélectionner simultanément les deux variables. On obtient une
valeur de r = −0.8496 comme coecient entre l'âge et la FCM. Cela conrme
que la relation est négative : avec l'âge, la FCM baisse.
11.4. LE COEFFICIENT DE CORRÉLATION LINÉAIRE R
87
●
●
●
190
FCM
195
200
●
●
●
●
185
●
●
●
●
180
●
●
25
30
35
40
45
50
Age
11.1 Nuage de points entre l'âge (X ) et la fréquence cardiaque maximum
(Y ) pour les données des coureurs amateurs.
Fig.
55
88
CHAPITRE 11. ETUDE INFÉRENTIELLE DE CORRÉLATION
Remarque 124
r
En référence à l'hypothèse de non corrélation, le coecient
peut directement servir de taille d'eet relative. On compare alors sa valeur
absolue aux tailles conventionnelles suivantes :
0.5
0.1
(petite),
0.3
(moyenne) et
(grande).
Pour l'exemple traité, la relation est donc considérée comme très forte.
11.5 Intervalle de conance de r
Le modèle statistique sous-jacent sera peu détaillé car complexe : il s'agit
d'une généralisation de la loi normale à deux dimensions qui s'appelle loi normale bivariée. Pour la caractérisée, il faut l'espérance mathématique de chaque
variable (X et Y ), leurs écarts-types respectifs et un paramètre supplémentaire
appelé coecient de corrélation théorique ρ qui est la généralisation de r. L'intervalle de conance cherche donc à encadrer la valeur de ce paramètre ρ.
Le calcul de l'intervalle de conance de ρ à partir de r est complexe1 . Nous
nous contenterons d'utiliser les calculs réalisés en utilisant la procédure précédente. Nous obtenons au niveau de conance N C = 0.95 un intervalle qui
s'étend de −0.95 à −0.56. Cet intervalle est de grande largeur, ce qui est dû au
peu de mesures (n = 13). Malgré cela, la valeur de référence 0 clairement hors
de l'intervalle.
Exercice 125
Calculer un intervalle de conance du coecient de corréla-
tion entre les variables FEG et FED pour les nageurs dans l'étude de laxité
de l'épaule. Recommencer avec les non-nageurs. Comparer ces deux intervalles.
11.6 Le test de r
Toujours sur la base du modèle statistique normal bivarié, on cherche à tester
H0 : ρ = 0 contre Ha : ρ 6= 0 (en version bilatérale).
Le test statistique est basé sur le coecient de corrélation linéaire r calculé
sur l'échantillon de taille n. On dénit alors la statistique de Student
√
r
T = n − 2√
.
1 − r2
Sous l'hypothèse nulle, cette statistique suit une loi de Student à n − 2 degrés de liberté. Le calcul de la statistique t, du nombre de degré de liberté et
de la probabilité critique s'obtient à nouveau par la même procédure. Puisque
l'on s'attend à une relation négative entre l'âge et la FCM, on choisit un test
unilatéral et on obtient en l'espèce t = −5.3426 avec 11 degrés de liberté et une
probabilité critique de p = 0.0001182. La relation est statistiquement signicative.
1 basée sur une transformation qu'on appelle Z de Fisher)
Z(r) =
1
1+r
1
ln(
) ∼ N (Z(ρ), √
).
2
1−r
n−3
11.7. QUELQUES EXERCICES POUR SAISIR LA SUBTILITÉ DE LA NOTION DE CORRÉLATION89
11.7 Quelques exercices pour saisir la subtilité de
la notion de corrélation
Exercice 126
Le chier ASVEL2bis.xls pour
n = 586
supporteurs de l'AS-
VEL une mesure de la (log) distance entre leur domicile et le stade (variable
LogDist), ainsi qu'un score issue d'un questionnaire mesurant leur "peur" de
faire une erreur lorsqu'ils choisissent de venir voir un match à l'Astroballe (variable PeurErreur) : "plus l'indice est élevé, plus ils ont peur de se tromper".
Réaliser un graphique de la relation entre ces deux variables. Calculer le coecient de corrélation linéaire. Tester si ce coecient peut être considéré comme
nul. Quelle est votre conclusion. Calculer un intervalle de conance, quelle est
votre conclusion ? Quelle est la taille d'eet correspondante ? Quelle est votre
conclusion ?
Exercice 127
Le chier VOLLEY.xls contient pour 12 clubs de volleyball de la
région Rhône-Alpes le nombre de licenciés de ce club (variable Licencies ) et la
recette (variable Recettes en Francs). Réaliser une nuage de points permettant
d'établir une éventuelle relation entre le nombre de licenciés du club et la recette.
Comment décririez-vous cette relation ? Quelle est la valeur du coecient de
corrélation linéaire ? Que pensez-vous de cette valeur ?
Exercice 128
Le chier FITECHTEST.xls contient les valeurs (n
procédure de test-retest sur la valeur de
V O2max
= 30)
d'une
obtenue par le tech test [21].
Réaliser une représentation graphique de la relation entre les variables test1
et test2. Que pensez-vous de la relation ? Calculer le coecient de corrélation
linéaire. Quel est le sens d'un test de nullité de ce coecient alors qu'on cherche
à montrer que la relation est forte ? Quel est l'intérêt de l'intervalle de conance
dans cette situation.
Exercice 129
Le chier RUGBY.xls contient les tailles et poids moyens par
poste de jeu des rugbymen de l'élite 1 française (Maso [22]). Représenter le
nuage de poids où l'axe
X
est celui de taille et l'axe
Y
celui de poids. Comment
caractériser cette relation ? Quels points semblent assez éloignés de cette relation ? Quelles est le comportement de la droite tracées sur le graphique, reètet-elle le comportement de la majorité des points ?
90
CHAPITRE 11. ETUDE INFÉRENTIELLE DE CORRÉLATION
Annexe A
Installation du logiciel R et
du package Rcmdr
A.1 Installation de R pour Windows
1. Aller sur le site http ://www.r-project.org/ an de récupérer le logiciel
d'installation de R. Cliquer sur Download an de trouver un site miroir proche pour limiter le temps de chargement, par exemple le site
http ://cran.univ-lyon1.fr.
2. Charger une distribution précompilée (Precompiled Binary Distributions)
pour Windows (95 and later). Cliquer sur Base, puis charger sur votre
disque dur (C :) le logiciel d'installation R-2.5.1-win32.exe (la dernière
version à l'heure où j'écris ce document, mais depuis . . .).
3. Double-cliquer sur le logiciel R-2.5.1-win32.exe an de procéder à l'installation de R. Choisir les options par défaut an de l'installer sur le disque
C.
A.2 Utilisation de R
Utiliser le menu démarrer, puis Tous les programmes, puis R, puis R 2.5.1.
Le logiciel s'ouvre alors et une fenêtre "Rconsole" apparaît.
Il faut indiquer au logiciel R dans quel répertoire windows il doit aller chercher les chiers (en particulier les jeux de données) dont nous avons besoin et
où les sauvegarder également ; ce répertoire est dit répertoire de travail. Dans
le menu déroulant "Fichier", existe une option "Changer de répertoire courant"
qui par l'intermédiaire d'une arborescence permet de choisir le répertoire qui
nous convient (par défaut c'est C :\Program Files\R\R-2.5.1).
Le problème du logiciel R est qu'il s'agit d'un logiciel à langage de commandes, c'est à dire que pour l'utiliser, il faut taper des commandes dans la
console, les valider pour obtenir des calculs ou des graphiques. Toutefois, il existe
91
92ANNEXE A. INSTALLATION DU LOGICIEL R ET DU PACKAGE RCMDR
une version interactive employant des menus déroulants qui s'appelle Rcmdr que
nous allons employer.
A.3 Installation et chargement du package Rcmdr
A.3.1 Installation de Rcmdr
Avant de commencer à utiliser ce package, il faut toutefois l'installer. La
démarche suivante n'est donc à réaliser qu'une fois :
1. L'un des menus déroulants de R s'appelle "Packages". Choisir dans ce
menu l'option "`Installer le(s) package(s)".
2. Une fenêtre de dialogue s'ouvre qui vous propose un ensemble de site où
vous pouvez chercher ce package. Choisir un site situé en France.
3. Une autre fenêtre s'ouvre qui propose une (longue) série de package, il
faut choisir Rcmdr. Le téléchargement se produit alors automatiquement
sur votre ordinateur (Ne pas s'inquiéter, beaucoup de packages sont en
fait téléchargés).
A.3.2 Utilisation de Rcmdr
Pour utiliser le package Rcmdr (Une fois qu'il est installé...), il sut d'aller
dans le menu déroulant "Packages" et de choisir l'option "Charger le package". Il
faut choisir dans la liste des packages déjà installés sur votre ordinateur Rcmdr.
Une fenêtre s'ouvre alors qui s'appelle "R commander". On utilise alors les menus déroulants pour choisir diérentes options (charger un chier, calculer des
statistiques, réaliser des graphiques). Il faut noter que le résultat des actions
s'inscrit dans la fenêtre du bas du R commander qui s'appelle "Fenêtre de sortie". En revanche, les graphiques apparaissent dans la fenêtre habituelle de R
dite RGui. Il faut donc jongler entre RGui et Rcommander (on sy habitue).
Enn on peut noter que lorsqu'une action est choisie par un menu déroulant, des lignes s'inscrivent dans la fenêtre dite "Fenêtre de script". Il s'agit des
commandes réelles que R exécute (et dont on voit le résultat dans la fenêtre
de sortie). Il se peut que dans certains cas (très rares), les menus déroulants
ne soient pas susants, nous entrerons alors directement des commandes dans
cette fenêtre de script pour les exécuter.
Bibliographie
[1] R : A Language and Environment for Statistical Computing, R Development
Core Team, R Foundation for Statistical Computing, Vienna, Austria, 2007,
ISBN : 3-900051-07-0, http ://www.R-project.org.
[2] Champely S. (2003) Statistique vraiment appliquée au sport. Editions de
Boeck.
[3] J. Cohen (1988) Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Associates, publishers.
[4] Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S.
Fourth edition. Springer.
[5] Lim, M.S.C., Hellard, M.E. & Aitken, C.K. (2005) The case of disappearing
teaspoons : longitudial cohort study of the displacement of teaspoons in an
Australian research institute. British Medical Journal, 331, 1498-1500.
[6] Rousseuw, P.J. (1991) Tutorial to robust statistics. Journal of Chemometrics,
5, 1-20.
[7] Kotrlik, J.W. & Williams, H.A. (2003) The incorporation of eect size in information technology, learning and performance research. Information Technology, Learning and Performance Journal, 21 (1), 1-7.
[8] Greeneld et al. (1998) A statistics primer : condence intervals. American
Journal of Sports Medecine, 26, 145-149.
[9] Bonsangue, M.V. (1992) Is it true that blonds have more fun ? The Mathematics Teacher, 85 (7), 579-581.
[10] Cohen, J. (1992) A power primer. Psychological bulletin, 112 ( 1), 155-159.
[11] Diaconis, P. & Efron, B. (1983). Computer-Intensive Methods in Statistics.
Scientic American, 116-130.
[12] Schechtman, E. (2002) Odds ratio, relative risk, risk reduction, and the
number needed to treat - Which of these should we choose ? Value in Health,
5, 431-436.
[13] Anscombe, F.J. (1973) Graphs in statistical analysis. The American Statistician, 27, 17-21.
[14] Chateld, C. (1991) Avoiding statistical pitfalls. Statistical Science,
6(3),240-268.
93
94
BIBLIOGRAPHIE
[15] Riddoch, C. & Trinik, T. (1988) Gactrointestinal disturbances in marathon
runners. British Journal of Sports Medecine, 47, 71-74.
[16] Vignal, B., Champely, S. & Terret T. (2000) Piscines d'hier, loisirs d'aujourd'hui ? L'analyse de laclientèle lyonnaise. Espaces, 66, 143-156.
[17] Sagnol, M., Claustre, J., Cottet-Emard, J.M., Péquignot, J.M., Fellman,
N., Coudert, J. & Peyrin, L. (1990) Plasma free and sulphated catecholamines after ultra-long exercise and recovery. European Journal of Applied
Physiology, 60, 91-97.
[18] Haguenauer, M., Legreneur, P., Colloud, F. et Monteil, K.M. (2002) Characterisation of the push-o in ice-dancing : inuence of the support leg
extension on performance. Journal of Human Movement Studies, 43, 197210.
[19] Dine, G. (2000) Biologie et prévention en traumatologie du sport appliquées
au football. Médecine du Sport, 74, 5-11.
[20] Champely, S. & Verdot, C. (2007) Que signie la signicativité statistique :
l'apport de la taille d'eet et de la puissance. A paraître dans STAPS.
[21] Atkinson, G. & Nevill, A.M. (1998) Statistical method for assessing measurement error (reliability) in variables relevant to sports medecine. Sports
Medecine, 26, 217-237.
[22] Maso, F. (2000) De l'inuence ddes kilos et des centimètres sur la manière
de jouer. Le Monde du Rugby, 20, 12.
[23] Monteil, K.M., Taiar, R., Champely, S. & Martin, J. (2002) Competitive
swimmers versus sedentary people : a predictive model based upon normal
shoulder's exibility. Journal of Human Movement Studies, 43, 17-34.
Téléchargement