α - Pacea

publicité
Éléments de statistique
Frédéric Santos, <[email protected]>
M1 AbP, Université de Bordeaux
Édition 2015–2016
Contenu du cours
1. Généralités. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
§1.1. Objectifs et pratique de la statistique, 1. — §1.2. Statistique et informatique, 2. —
§1.3. Échantillonnage, 2. — §1.4. Typologie des variables, 3.
2. Quelques éléments de probabilité . . . . . . . . . . . . . . . . . .
4
§2.1. Variable aléatoire, 4 (Cas d’une loi discrète, 4. Cas d’une loi continue, 4). — §2.2.
Fonction de répartition, 5 (Cas d’une loi discrète, 5. Cas d’une loi continue, 5). — §2.3.
Moments, 5. — §2.4. La loi normale, 6.
3. Le logiciel R . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
§3.1. Généralités, 6. — §3.2. Tableurs : règles de saisie des données, 7. — §3.3. Gestion des
packages, 9. — §3.4. L’interface graphique, 9.
4. Statistique descriptive
. . . . . . . . . . . . . . . . . . . . . . .
10
§4.1. Cas de variables quantitatives continues, 10 (Résumés numériques, 10. Représentations
graphiques, 12). — §4.2. Cas de variables qualitatives, 13. — §4.3. Cas de variables quantitatives discrètes, 14. — §4.4. Quantiles empiriques, 14. — §4.5. Liaison entre deux variables
numériques, 15.
5. Statistique inférentielle
. . . . . . . . . . . . . . . . . . . . . .
16
§5.1. Retour sur la loi normale, 16. — §5.2. Notion d’intervalle de confiance, 17. — §5.3.
Intervalle de confiance pour la moyenne, 18. — §5.4. Intervalle de confiance pour la variance,
20. — §5.5. Principe des tests d’hypothèses paramétriques, 20 (Objectifs, 20. Heuristique des
tests d’hypothèses, 21. Principe de fonctionnement, 21. Risques d’erreur, 21. La p-valeur d’un
test, 22). — §5.6. Tests paramétriques usuels, 23 (Comparaison de la moyenne à une valeur
de référence, 23. Comparaison de deux variances, 24. Comparaison des moyennes de deux
échantillons indépendants, 25. Comparaison des moyennes de deux échantillons appariés, 27).
— §5.7. Tests de normalité, 27. — §5.8. Équivalents non-paramétriques des tests usuels, 28.
— §5.9. Test d’indépendance du χ2 , 28.
Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
1. Généralités
Pour l’ensemble du cours, on pourra consulter les ouvrages généraux [Fro07], [Pag10] et [GDM11].
§1.1. Objectifs et pratique de la statistique
La statistique fréquentiste 1 offre toute une collection de méthodes visant à analyser des ensembles d’observations de manière objective et reproductible — c’est-à-dire que deux analystes
différents, en menant la même étude avec les mêmes outils, devront trouver les mêmes résultats.
Ces méthodes sont généralement fortement liées au calcul des probabilités et à l’algèbre linéaire.
Cette discipline a connu un essor considérable au cours du XXe siècle, en particulier après la
seconde guerre mondiale, puis ensuite avec l’arrivée de moyens informatiques performants.
1. C’est le point de vue dit classique en statistique, s’opposant à la statistique bayésienne, non évoquée dans ce
cours. Cette dernière laisse une place à la subjectivité et à l’intuition du chercheur.
1
2
Généralités
Elle est aujourd’hui omniprésente dans tous les secteurs d’activité :
— sciences bio-médicales (études cas-témoins pour la détermination de facteurs de risque,
certification des médicaments génériques, statistique en génomique et génétique, ...) ;
— économie (modèles financiers, risques en assurance, ...) ;
— marketing (études de satisfaction clientèle, impact de campagnes publicitaires, ...) ;
— télécommunications (traitement du signal) ;
— physique et sciences de l’univers (dont la physique statistique est un domaine central) ;
— sciences humaines (modèles démographiques, sociologie quantitative, ...) ;
— sécurité sanitaire, sûreté de fonctionnement en milieu industriel (EDF, Airbus, ...) ;
— écologie et climatologie (rôle majeur dans l’étude du réchauffement climatique), etc.
§1.2. Statistique et informatique
Aujourd’hui, de nombreux logiciels de statistique performants permettent de mener des analyses poussées de manière rapide, même sur de gros volumes de données. Dans ce cours, seul le
logiciel R sera utilisé. Voici cependant d’autres logiciels couramment employés :
— PAST : un logiciel gratuit spécialement destiné aux problématiques paléontologiques et
préhistoriques, associé à une épaisse et très pédagogique documentation [HH05] ;
— Gnumeric : un tableur libre et gratuit incluant de nombreuses fonctionnalités statistiques
avancées ;
— Statistica, logiciel payant propriétaire édité par StatSoft (déconseillé) ;
— Excel et son greffon XLStat, édités par Microsoft (déconseillé) ;
— SAS et SPSS, logiciels payants propriétaires, très utilisés dans l’industrie et le monde de la
finance, un peu moins dans le milieu de la recherche à cause de leur prix très élevé.
§1.3. Échantillonnage
On appelle population le groupe (a priori inaccessible dans sa totalité), ou encore le type, d’objets sur lequel porte notre étude. Un élément de la population est classiquement appelé individu,
voire parfois unité.
Mis à part le cas très particulier des recensements — étude sur population complète — une
étude statistique ne peut jamais être menée sur la totalité de la population, que ce soit pour des
raisons de coût ou simplement de faisabilité. Un échantillon est un sous-ensemble d’individus de la
population, réellement accessibles à l’expérimentateur — et dans le cas des études archéologiques,
cet échantillon est souvent très réduit.
Quelques exemples :
— dans une étude, la population peut par exemple être l’ensemble de tous les Néandertaliens,
l’ensemble de tous les statisticiens 2 , ou les ampoules d’un certain type en sortie d’une
chaîne d’usine ;
— un individu sera alors un Néandertalien, un statisticien, ou une ampoule ;
— on ne peut hélas accéder à tous les Néandertaliens ayant existé, pas plus qu’on ne peut se
permettre d’étudier toutes les ampoules produites par une usine : une étude statistique ne
porte que sur un nombre restreint d’individus. L’échantillon, liste réeelle des objets entrant
en compte dans l’étude, peut donc être un ensemble de 12 squelettes néandertaliens, ou 20
statisticiens pris au hasard dans l’annuaire de la Société française de statistique, ou 100
ampoules capturées à l’issue de la chaîne de production.
Une étude statistique suit le schéma suivant :
1. Il s’agit avant tout de choisir et collecter un échantillon d’individus suffisamment représentatif de la population globale : c’est l’objet de la théorie des sondages — qui ne sera
pas étudiée ici, puisque l’archéologue ne peut évidemment maîtriser son échantillonnage :
il travaille avec ce qu’il trouve !
2. Les mauvais esprits pourront toujours se plaire à faire remarquer qu’il n’y a pas grande différence entre ces
deux populations.
15 octobre 2015
3
Figure 1 – Différentes étapes dans une étude statistique
2. On décrit ensuite l’échantillon et on en extrait le maximum d’informations pour résumer
ses caractéristiques : c’est l’objet de la statistique descriptive, ou exploratoire.
3. Enfin, on cherche à savoir à quel point les caractéristiques de l’échantillon peuvent être
représentatives des caractéristiques (inconnues !) de la population globale : il s’agit de « remonter » depuis l’échantillon vers la population. On parle alors de statistique inférentielle 3 .
Définition 1 (Fluctuation d’échantillonnage). — On appelle fluctuation d’échantillonnage le fait
qu’un échantillon ne représente qu’imparfaitement la population sous-jacente.
Si un institut de sondage veut savoir comment vont voter les Français lors de la prochaine
élection, une stratégie (sommaire) peut être d’appeler 100 Français au hasard pour leur demander
leur intention de vote. À l’issue de cette étude, l’institut trouvera par exemple 15% d’intention de
vote pour le candidat A, 38% pour le candidat B, et 47% pour le candidat C. Mais si l’institut
recommence immédiatement l’expérience avec 100 autres personnes choisies au hasard, il est très
improbable qu’il observe exactement les mêmes pourcentages d’intention de vote sur le second
échantillon : il observera peut-être respectivement 18%, 37% et 45% sur ce second échantillon.
Ce phénomène est précisément la fluctuation d’échantillonnage 4 , autrement dit, le fait que les
caractéristiques de l’échantillon (choisi au hasard) ne soient pas parfaitement égales à celles de la
population dans son ensemble.
L’objectif de la statistique inférentielle peut être perçu comme l’évaluation de l’impact de la
fluctuation d’échantillonnage relativement aux différences réelles : si l’institut de sondage effectue
deux enquêtes à deux semaines d’intervalle, les différences observées dans les intentions de vote
relèvent-elles de la simple fluctuation d’échantillonnage au sein d’une population qui, globalement,
n’a pas changé d’avis ? Ou au contraire, relèvent-elles d’une véritable évolution de l’opinion publique dans son ensemble ? C’est cette question que doit trancher la statistique, avec un risque
associé à la prise de décision.
§1.4. Typologie des variables
Classiquement, on récolte sur chaque individu une ou plusieurs informations, considérées comme
des réalisations de variables aléatoires pouvant être de différents types :
— variables quantitatives continues : longueur d’un tibia sur un squelette néandertalien, durée
de vie d’une ampoule ;
— variables quantitatives discrètes : âge d’un étudiant en années, nombre de dents restées
intactes sur un squelette ;
— variables qualitatives hiérarchisées, ou ordinales : état de conservation du squelette (bon,
moyen, mauvais), opinion politique des étudiants (de la plus à gauche à la plus à droite) ;
— variables qualitatives non hiérarchisées : présence ou absence de carie sur une dent, orientation des jambes dans une sépulture (Nord, Ouest, ...).
3. Du latin inferre, littéralement « porter dans », traduisant l’objectif de « porter dans la population » les
informations découvertes dans l’échantillon.
4. Le concept de fluctuation d’échantillonnage a toujours été un ressort comique assez classique, comme en
témoigne l’aphorisme du grand philosophe Jean-Claude Van Damme : « Selon les statistiques, il y a une personne
sur cinq qui est déséquilibrée. S’il y a quatre personnes autour de toi et qu’elles te semblent normales, c’est pas
bon ». Dans un autre genre, certaines tribulations de Perceval et Karadoc dans la série Kaamelott doivent également
beaucoup à cette notion.
4
Quelques éléments de probabilité
2. Quelques éléments de probabilité
« Toute connaissance dégénère en probabilité. » — David Hume
§2.1. Variable aléatoire
Le concept est en général bien vulgarisé par les spécialistes du traitement du signal qui utilisent
le terme de source. Intuitivement, on peut voir cela comme une source générant aléatoirement des
valeurs, mais dont le comportement est encadré par une loi, c’est-à-dire la probabilité d’obtenir
chaque valeur ou ensemble de valeurs. En d’autres termes, même si « individuellement » on ne peut
prévoir le résultat d’une réalisation de la variable aléatoire, on sait comment devraient globalement
se répartir les valeurs issues d’un grand nombre de réalisations 5 .
2.1.1. Cas d’une loi discrète. — Si une variable aléatoire X ne peut générer qu’un nombre
fini de valeurs tx1 , x2 , , xn u (comme dans le cas d’un lancer de dé, où on obtient aléatoirement
un nombre entre 1 et 6), sa loi est totalement déterminée par les probabilités d’obtention de chaque
valeur, notées pi P tX xi u. Il va de soi que chaque pi est compris entre 0 et 1, et que la somme
de toutes les probabilités pi est égale à 1.
Par exemple, dans le cas du lancer d’un dé équilibré, toutes les valeurs entre 1 et 6 sont
équiprobables. Alors, si X est le résultat du lancer :
P tX
1u P tX 2u P tX 6u 1{6
Cela signifie que le dé est bien conçu, de telle façon qu’aucune valeur n’est théoriquement plus
probable qu’une autre (on parle de loi uniforme). Il est impossible de prédire de manière fiable le
résultat d’un lancer de dé, mais on sait par contre qu’en le lançant un grand nombre de fois, on
devrait avoir sensiblement autant de 1, que de 2, ..., que de 6.
Si on truque légèrement le dé en y intégrant une bille de plomb afin de déplacer son centre de
gravité, on peut par exemple imaginer que la loi de X deviendra :
P tX
1u 1{2
;
P tX
2u P tX 3u P tX 6u 1{10
2.1.2. Cas d’une loi continue. — Si X peut générer n’importe quel nombre réel (comme
dans le cas d’une loi normale, cf. infra), une énumération exhaustive des probabilités d’obtention
de chaque valeur est évidemment impossible. La loi de X est dans ce cas définie par la probabilité
d’obtention d’une valeur comprise entre deux nombres quelconques a et b : la connaissance de
P tX P ra, bsu pour tous réels a et b détermine la loi de X de manière unique.
En particulier, on dit que X admet la fonction f pour densité si on a :
P tX
³
P ra, bsu »b
a
f puq du
avec R f 1 (l’aire totale sous la courbe de la fonction f est 1).
Le lecteur familier avec la théorie de l’intégration en déduira que la probabilité pour X de
prendre une valeur située entre a et b est donnée par l’aire sous la courbe de f sur l’intervalle
ra, bs. D’où le nom de « densité » : la forme de f détermine les valeurs où il est probable ou peu
probable de « tomber ».
Définition 2. — On dit que la série px1 , , xn q est composée de valeurs indépendantes et
identiquement distribuées (i.i.d.), si elles sont issues de la même distribution de probabilité (elles
suivent la même loi). Dans la vie concrète, cela signifie qu’elles sont obtenues de manière indépendante par itération de la même expérience. Par exemple, 10 lancers de dé avec le même dé
équilibré constituent une série de valeurs i.i.d. (selon la loi uniforme).
5. Ce qui signe la différence entre l’aléatoire et l’anarchique ou l’imprévisible.
15 octobre 2015
5
Figure 2 – Densité d’une loi N p0, 1q : les valeurs les plus probables pour cette loi sont situées
dans l’intervalle r2, 2s.
§2.2. Fonction de répartition
La loi d’une variable aléatoire X est déterminée de manière unique par sa fonction de répartition
FX , définie par :
FX ptq P tX ¤ tu
Il s’agit donc d’une fonction donnant les probabilités cumulées de prendre n’importe quelle valeur
jusqu’à un seuil t donné.
2.2.1. Cas d’une loi discrète. — Par exemple, dans le cas d’un lancer de dé équilibré :
FX p1q
FX p2q FX p3q FX p6q
..
.
P tX
P tX
P tX
¤ 1u P tX 1u 1{6
¤ 2u P tX 1 ou X 2u 1{6 1{6 1{3
¤ 3u P tX 1 ou X 2 ou X 3u 1{6 1{6
P tX
¤ 6u 1
1{6 1{2
2.2.2. Cas d’une loi continue. — Si X admet f pour densité, on a :
FX ptq P tX
¤ tu P tX Ps 8, tsu »t
8
f puq du
Il s’agit ici de l’aire sous la courbe de f sur l’intervalle s 8, ts, ce qui représente bien, d’après
ce qui précède, la probabilité de prendre n’importe quelle valeur inférieure à t. Sur la figure 3,
l’aire coloriée sous la courbe représente la probabilité de prendre n’importe quelle valeur jusqu’à
1 : il s’agit de F p1q.
Une propriété évidente des fonctions de répartition est qu’elles sont croissantes et toujours
comprises entre 0 et 1.
§2.3. Moments
Définition 3 (Espérance). — On définit l’espérance de X, notée E rX s, comme le résultat moyen
que l’on peut s’attendre à obtenir à l’issue de l’expérience aléatoire : c’est une valeur moyenne
théorique qui n’a pas forcément toujours de sens concret.
Dans le cas d’une loi discrète, avec les notations
ci-dessus, on a E rX s ³
d’une loi continue à densité f , on a E rX s xf pxq dx.
°
xi pi ; et dans le cas
Le logiciel R
6
Figure 3 – Représentation de F p1q comme aire sous la courbe de la fonction de densité.
Par exemple, dans le cas déjà évoqué du lancer d’un dé truqué, on se donne pour X la loi
suivante :
Valeurs pxi q
Prob. ppi q
1
0.4
2
0.2
3
0.1
4
0.1
5
0.1
6
0.1
On a E rX s 1 0.4 2 0.2 3 0.1 4 0.1 5 0.1 6 0.1 2.4, ce qui signifie que si
l’on fait un grand nombre de lancers et qu’on fait la moyenne des scores obtenus, on ne devrait
pas tomber bien loin de 2.4 (c’est la loi des grands nombres : l’espérance est la moyenne obtenue
sur une infinité de lancers).
Définition 4 (Variance). — La variance de X, notée V pX q, est une mesure d’incertitude et de
variabilité de X, donnée par :
V pX q E pX E rX sq2
E
2
X
E rX s2
Concrètement, elle mesure la dispersion des valeurs de X autour de leur moyenne : une variable
aléatoire de variance faible fournit des valeurs tassées autour de la moyenne de X, tandis qu’une
variance élevée correspond à des valeurs très étalées.
§2.4. La loi normale
Largement connue, avec sa fameuse « courbe en cloche », la loi normale est de loin la plus
utilisée dans de nombreux domaines, d’une part car elle se prête très bien aux calculs analytiques,
d’autre part grâce à sa capacité à modéliser un grand nombre de phénomènes.
Les lois normales — ou gaussiennes — forment une famille de lois continues sur R, chacune
étant déterminée de façon unique par deux paramètres : espérance µ et variance σ 2 . La figure 4
présente quelques exemples de l’influence des paramètres de position µ et de forme σ.
À titre indicatif, la densité d’une loi normale N pµ, σ 2 q est fournie par :
f pxq ?
1
2πσ 2
exp
p
x µq2
2σ 2
3. Le logiciel R
§3.1. Généralités
R est un logiciel libre et gratuit fonctionnant sur tous les systèmes d’exploitation. Collaboratif,
très bien documenté et disposant d’une grande communauté d’utilisateurs, il s’est imposé comme
le logiciel le plus utilisé pour les tâches statistiques. Cependant, il s’agit d’un véritable langage de
15 octobre 2015
7
Figure 4 – Densités des lois N pµ, σ 2 q pour diverses valeurs des paramètres µ et σ
programmation aux possibilités extrêmement vastes, et qui permet surtout d’automatiser toutes
les tâches répétitives auxquelles on peut être régulièrement confronté en pratique — il ne sera pas
rare que quelques lignes de code R produisent instantanément un résultat qui prendrait plusieurs
heures de manipulations avec PAST ou Statistica... quand ce n’est pas plusieurs jours !
De nombreux ouvrages francophones détaillent parfaitement l’utilisation du logiciel pour les
néophytes [LDL14, MBB14, C 12], en offrant des jeux de données en libre accès pour permettre
un apprentissage pratique. Il est donc vivement conseillé, en vue du mémoire de M2, de consulter
ces ouvrages afin de maîtriser ce logiciel le plus tôt possible.
R dispose d’une interface graphique sommaire mais en constante évolution, utilisable par tout
un chacun avec un effort minimal. Toutefois, on ne tirera pleinement partie des possibilités du
logiciel (et en particulier de sa capacité à automatiser les tâches redondantes) qu’en apprenant
quelques fondamentaux de langage R, en lignes de commandes.
§3.2. Tableurs : règles de saisie des données
La planification d’une étude statistique requiert bien évidemment de commencer par définir
son but, ainsi que la population sur laquelle elle sera menée, l’échantillon qui sera choisi, et les
informations qui seront collectées sur les individus de l’échantillon.
Une fois l’étude réalisée, le traitement informatique des données exige que ces dernières soient
mises en forme suivant certains principes incontournables. Les principes ci-dessous ne sont pas
spécifiques à R et sont également exigés par la plupart des logiciels de statistique.
1. Principe fondamental : pour toutes les tâches de traitement statistique, seul le format CSV
est recommandé 6 . Proscrire à tout prix les formats XLS, XLSX, et même le format ouvert
ODS. Le format CSV est uniquement constitué de texte brut et aucune mise en forme (gras,
couleurs, taille de fonte) ne sera possible. Vous pouvez éventuellement travailler avec une
base au format XLS ou ODS pour « lire » et parcourir votre jeu de données des yeux et en
créer une copie CSV pour le traitement statistique ; mais quoiqu’il arrive, votre base devra
impérativement respecter les règles ci-dessous, sous peine d’être inexploitable.
6. Et plus précisément, en France, le CSV avec comme séparateur de colonnes le point-virgule, la virgule étant
le séparateur décimal. Dans les pays anglophones, le CSV a usuellement une virgule comme séparateur de champs
et un point comme séparateur décimal.
8
Le logiciel R
2. Les individus sont disposés en lignes, et les variables les décrivant sont renseignées en
colonnes.
3. Un individu n’est toujours disposé que sur une et seule seule ligne, de telle sorte qu’il y a
dans le jeu de données exactement autant de lignes que d’individus. Les noms des individus
doivent être insérés en première colonne, et ne doivent comporter aucun doublon — sinon,
R refusera de charger le fichier, et affichera le message d’erreur « Duplication dans le
nom des individus non autorisée ».
4. Les caractères spéciaux (lettres accentuées, symbole « degré », lettres grecques, ...) sont
vivement déconseillés. La présence de guillemets, d’une apostrophe ou d’un symbole # sont
quant à eux absolument proscrits, puisqu’ils empêchent le chargement correct du fichier.
5. Choisissez des noms de variables (i.e. de colonnes) courts, clairs, et si possible ne comportant pas d’espace typographique — que vous pourrez remplacer par des majuscules ou des
underscores judicieusement placés, le cas échéant. Proscrivez les intitulés à rallonge : choisissez des codes ou des abréviations que vous pourrez éventuellement détailler et expliciter
dans un document séparé.
6. Si pour un individu donné vous n’avez pas accès à toutes les informations que vous devez
renseigner, on parle de données manquantes. Celles-ci doivent impérativement être signalées
en laissant vides les champs correspondants. N’indiquez jamais par un « ? », un « Abs » ou
toute autre chaîne de caractères, qu’il vous manque une information. Réciproquement, un
champ de votre jeu de données (i.e. une cellule de votre tableur) ne doit être vide que si la
donnée ne vous est pas accessible.
7. Veillez à ce que le séparateur décimal que vous choisirez — le point, ou la virgule — soit le
même dans tout votre jeu de données. Veillez également à ne pas insérer d’espaces superflus
dans les cellules.
8. Si vous avez une incertitude sur une information (doute sur une mesure, mesure imprécise
car os brisé, ...), ne l’indiquez jamais par un « ? » directement dans la cellule à la fin de
votre mesure. Créez un commentaire sur cette cellule dans votre fichier ODS/XLS original :
ce commentaire sera supprimé lors de la conversion en CSV et n’affectera pas vos données.
9. Toutes les mises en forme complexes sur votre base originale en ODS/XLS sont à proscrire :
fusion de cellules, colonnes ou lignes vides pour « aérer » les données, etc. En effet, la
conversion du fichier en CSV le déformera alors et le rendra illisible.
10. Dans le même ordre d’idée, les informations qui sont traitables par les logiciels de statistique
sont du texte, et uniquement du texte : ils ne prendront nullement en compte les couleurs
ou les polices d’écriture que vous auriez utilisées dans votre base d’origine en ODS/XLS.
Aucune information ne doit donc être contenue dans la mise en forme. Par exemple, n’indiquez jamais qu’un individu appartient au groupe 1 en le colorant en bleu, et qu’un autre
appartient au groupe 2 en le colorant en rouge : insérez plutôt une colonne « Groupe » dans
votre jeu de données, que vous renseignerez « 1 » ou « 2 » pour chaque individu (i.e. sur
chaque ligne). N’oubliez pas que la conversion en CSV détruira toute la mise en forme du
fichier !
11. Vérifiez minutieusement vos données avant le traitement statistique : il n’est probablement
pas bienvenu, lorsque le temps manque, de devoir recommencer quatre fois la totalité de vos
analyses parce que vous redécouvrez sans arrêt des coquilles dans votre jeu de données...
Exercice 1 (Conception des feuilles de données). — Télécharger un pack de feuilles de données
à l’adresse suivante : http://tinyurl.com/tpfdd.
1. Ouvrir ces fichiers à l’aide d’un tableur. Quelles remarques et corrections peut-on formuler
quant à la conception et la mise en forme des données ?
2. Essayer de charger ces jeux de données sous R : que se passe-t-il ?
15 octobre 2015
Nom_Indiv
PS233
PS238
RM122
RM247
.
.
.
Population
PS
PS
RM
RM
.
.
.
Sexe
F
M
M
F
.
.
.
ClasseAge
IM
AD
AD
AD
.
.
.
9
FM1
406,5
428
412
.
.
.
RadPMN
44
46
32
.
.
.
UM2
210
234
236,5
213,5
.
.
.
..
.
Table 1 – Un exemple de jeu de données correctement mis en forme, concernant l’étude métrique
(mesures sur le fémur, le radius, l’ulna, ...) des individus de plusieurs sites.
§3.3. Gestion des packages
R est un logiciel collaboratif : n’importe qui peut créer son propre greffon 7 et le soumettre aux
créateurs du logiciel. S’il est accepté, il sera disponible en ligne sur le site officiel de R, et sera
téléchargeable par tous à travers le monde. C’est un intérêt majeur du logiciel : quelle que soit la
question précise que vous vous posez, y compris si cela implique des méthodes peu communes, il
existe très certainement un package additionnel qui vous permettra de résoudre votre problème.
Pour installer un package, il suffit d’utiliser la commande install.packages(). Par exemple,
pour installer le package FactoMineR qui permet de réaliser certaines analyses multivariées spécifiques, on exécutera la commande suivante : install.packages("FactoMineR", dep=TRUE).
Le package est alors installé une bonne fois pour toutes, mais devra ensuite être chargé, lors de
l’ouverture du logiciel, chaque fois que vous en aurez besoin. Pour cela, on utilisera la commande
library, et on exécutera donc par exemple : library(FactoMineR). Le package reste alors chargé
jusqu’à la fermeture du logiciel.
§3.4. L’interface graphique
Dans ce cours, nous utiliserons l’interface graphique de R plutôt que la console de commandes.
L’interface graphique peut être chargée en exécutant la commande library(Rcmdr).
Exercice 2 (Importation de données). — Télécharger le fichier de données disponible à l’adresse
suivante : http://tinyurl.com/Data-M1ABP.
1. Après avoir vérifié son contenu avec un tableur (et avec un éditeur de texte !), l’importer dans R à l’aide de l’interface graphique (menu Données > Importer des données >
depuis un fichier texte ...). Veiller à définir correctement les séparateurs de champs
et décimal, qui dépendent de la façon dont le fichier a été enregistré.
2. Réflexe indispensable : cliquer sur le bouton Visualiser afin de vérifier que R a correctement importé et compris le fichier.
3. Indiquer à R que la première colonne contient le nom des individus. Pour cela, aller dans
Données > Jeu de données actif > Nom des cas. Visualiser à nouveau le jeu de données.
Dans toute la suite du document, on se basera sur ce fichier de données.
Exercice 3 (Manipulations élémentaires de données). — Toujours à partir du même fichier de
données :
1. À l’aide du menu Données > Jeu de données actif > Sous-ensemble, créer une souspartie du jeu de données, que vous pourrez appeler Det, qui ne comprendra que les individus
de sexe connu. Visualiser ce nouveau jeu de données réduit.
2. Afficher un résumé global des données grâce au menu Statistiques > Résumé > Jeu de
données actif.
7. Plus communément appelé package, voire même, par abus de langage, librairie.
10
Statistique descriptive
3. De même, créer un nouveau jeu de données réduit, à partir de la base d’origine, qui ne
comprendra que les individus dont la variable FM1 présente une valeur inférieure à 430.
On peut par exemple appeler PetitsFem ce nouveau jeu de données réduit. L’exporter en
format CSV grâce au menu Données > Jeu de données actif > Exporter le jeu de
données actif.
Dans la section suivante, nous allons voir comment offrir de bons résumés statistiques des
informations contenues dans notre jeu de données, afin de décrire au mieux notre échantillon.
4. Statistique descriptive
Pour cette partie du cours, on pourra plus spécifiquement consulter [HJ08].
§4.1. Cas de variables quantitatives continues
4.1.1. Résumés numériques. — Supposons que l’on a mesuré la durée de vie de n
ampoules identiques. Voici les résultats :
10
p91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1q
Définition 5 (Moyenne empirique). — Soit un échantillon de n valeurs pX1 , , Xn q. On appelle
X
moyenne empirique de l’échantillon la quantité :
Xn
X1 n Xn
n1
n
¸
Xi
i 1
Par exemple, pour nos durées de vie d’ampoules, la moyenne empirique est de 83.1 (à vérifier).
On suppose que ces ampoules sont toutes issues de la même chaîne de production, les durées
de vie mesurées ci-dessus sont i.i.d. selon une certaine loi d’espérance µ. Alors, µ est la « durée
moyenne de bon fonctionnement », ou « MTTF » (Mean Time To Failure), c’est-à-dire la durée
théorique moyenne pour laquelle une ampoule de ce type est conçue pour fonctionner 8 .
La moyenne empirique Xn constitue le meilleur estimateur de µ, ce qui est tout à fait naturel :
si on veut avoir une idée de ce temps moyen de bon fonctionnement en n’utilisant que les données,
on calculera intuitivement la moyenne empirique des durées de vie.
Naturellement, et nous l’avons déjà signalé en p. 6, cet estimateur sera d’autant plus précis
que l’échantillon d’ampoules sera important : l’estimation de la durée de vie moyenne pourra être
peu satisfaisante si on ne dispose que de 4 ampoules, mais elle sera très proche de la valeur exacte
si on en dispose de 1000. On dit que Xn tend vers µ lorsque la taille de l’échantillon n tend vers
l’infini (loi des grands nombres).
Définition 6 (Variance empirique). — Soit un échantillon de n valeurs pX1 , , Xn q. On appelle
variance empirique de l’échantillon la quantité :
2
SX
2
2
pX1 Xn q n pXn Xn q
1
n
n
¸
pXi Xn q2
i 1
On appelle écart-type empirique la racine carrée de S 2 , qui exprime en « unités de mesure originelles » la dispersion de l’échantillon.
2
Remarque. — L’expression algébrique de SX
est la moyenne des carrés des écarts à la moyenne.
L’écart-type empirique est donc bien une mesure de dispersion, dans le sens où il évalue la distance
moyenne entre Xn et les valeurs de la série statistique.
8. Alors que les premières lampes à incandescence étaient extrêmement durables, les principaux fabricants (Philips, Osram, General Electric) se sont organisés en cartel dans les années 1920 afin de réduire volontairement la
durée de vie de leurs produits. L’ingéniérie statistique, en fixant un MTTF compatible avec un renouvellement
régulier des produits, sert ainsi parfois à la planification de l’obsolescence programmée.
15 octobre 2015
11
De manière analogue à la moyenne empirique, si l’on conserve l’hypothèse que les durées de vie
sont i.i.d. selon une certaine loi de variance σ 2 (σ 2 est alors assimilable à la qualité du processus de
fabrication et à l’homogénéité de la qualité des objets produits), la variance empirique S 2 constitue
un estimateur de σ 2 .
Cependant, au moins pour les petits échantillons, on lui préfère un estimateur légèrement
modifié, dit sans biais, qui remplace la division par n par une division par n 1 :
x2
σ
n 1 1
n
¸
pXi Xn q2
i 1
Même si la notion d’écart-type donne une indication sur la dispersion de la série de données,
elle présente un inconvénient majeur : un écart-type doit toujours s’interpréter par rapport à la
moyenne. Par exemple, un écart-type de 10 n’a pas du tout la même signification pour une série de
moyenne 2 que pour une série de moyenne 400 : dans le premier cas, la série est très dispersée, dans
le second cas elle est très compacte. Pour éliminer ce problème, on définit un autre indicateur :
Définition 7 (Coefficient de variation). — Le coefficient de variation est le rapport de l’écarttype sur la moyenne :
SX
CV Xn
Il s’agit d’un indicateur sans dimension, qui s’interprète classiquement de la manière suivante :
— si CV 0.15, la distribution est considérée comme très peu dispersée ;
— si 0.15 ¤ CV ¤ 1, la distribution est considérée comme ayant une dispersion assez importante ;
— si CV ¡ 1, la distribution est extrêmement dispersée.
Pour les durées de vie d’ampoules, le coefficient de variation est donc :
CV
SXX 74.5
0.9 1
83.1
n
On considère donc que la série des durées de vie a une grande variabilité : le processus de
fabrication donne des ampoules de qualité inhomogène. Empiriquement, on constate en effet de
gros écarts (une ampoule n’a tenu que 5.4h alors qu’une autre a tenu près de 250h !).
Exercice 4 (Statistiques descriptives pour un jeu de données). — En reprenant le jeu de données
des exercices précédents :
1. Afficher la moyenne, l’écart-type et le coefficient de variation des variables numériques
du jeu de données. Pour cela, visiter le menu Statistiques > Résumés > Statistiques
descriptives.
2. Nettement plus intéressant : produire les mêmes résultats en tenant compte des groupes.
Afficher la moyenne de quelques variables numériques du jeu données pour les femmes uniquement, puis pour les hommes uniquement. Il existe plusieurs façons de procéder (on peut
par exemple créer deux sous-ensembles de données Hommes et Femmes), mais la plus rapide
reste de travailler sur le jeu de données complet et de passer par le menu Statistiques >
Résumés > Statistiques descriptives, en utilisant l’option Résumer par groupe.
Définition 8 (Étendue). — On appelle étendue d’une série statistique, la différence entre son
maximum et son minimum. Il s’agit d’un indicateur qui complète les informations précédentes,
et donne là aussi une idée (très partielle) de la dispersion de la série. Une étendue importante
associée à un coefficient de variation faible révèle probablement la présence d’individus atypiques
dans la série de valeurs.
Dans le cas de la série d’ampoules, l’étendue est de 251.3 5.4 245.9.
12
Statistique descriptive
4.1.2. Représentations graphiques. — La représentation graphique la plus utile et la
plus révélatrice pour une série de données quantitative continue, est l’histogramme. Il s’agit d’un
équivalent empirique de la fonction de densité. Sa construction obéit aux règles suivantes :
1. Choisir a0 un nombre inférieur au minimum de la série, et ak un nombre supérieur au
maximum. Ainsi, l’intervalle ra0 , ak s recouvre la totalité de la série.
2. Découper ra0 , ak s en k sous-intervalles saj 1 , aj s, généralement de même longueur, appelés
classes.
3. On appelle effectif d’une classe le nombre nj de valeurs contenues dans cette classe, et
fréquence d’une classe le rapport nj {n, qui est la proportion de valeurs contenues dans
cette classe.
4. L’histogramme est alors la figure constituée de rectangles dont les bases sont les classes, et
dont les aires sont égales aux fréquences des classes (ou aux effectifs, les deux existent, et
cela revient de toute façon au même).
Figure 5 – Histogramme des durées de vie d’ampoules
Il n’y a pas « unicité » de l’histogramme, puisqu’on peut choisir un nombre différent de classes
(donc, découper différemment l’étendue de la série statistique et avoir un nombre différent de
rectangles). Habituellement, le nombre de classes est choisi en tenant compte des deux règles
suivantes :
— quel que soit l’effectif total de l’échantillon, on veillera à n’avoir jamais plus de 20 classes,
et si possible jamais moins de 5 ;
— dans cette fourchette, le nombre de classes peut être fixé en utilisant la règle de Sturges,
qui recommande de découper en p1 ln n{ ln 2q classes.
L’histogramme donne une allure générale de la fonction de densité théorique qui sous-tend le
processus : en particulier, l’histogramme des durées de vie d’ampoules ne rappelle en rien une
forme en « cloche » : ces durées de vie ne suivent pas une loi normale.
Exercice 5 (Tracé d’histogrammes). — Dans le jeu de données de référence du cours, tracez
l’histogramme (en prenant en compte l’ensemble des individus) de la variable RM1 (menu Graphes
> Histogrammes). L’allure de la courbe permet-elle d’envisager une loi normale ? Avez-vous une
hypothèse à proposer ?
15 octobre 2015
13
§4.2. Cas de variables qualitatives
Définition 9. — On appelle modalités les différentes valeurs que peut prendre une variable
qualitative.
Par exemple, troux, blond, brun, chatainu est l’ensemble des modalités de la variable qualitative couleur des cheveux.
Définition 10 (Fréquence). — Soit X une variable qualitative à k modalités tm1 , , mk u.
Cette variable a été observée sur un échantillon de n individus. On appelle fréquence absolue de la
modalité mj l’effectif total nj d’individus présentant cette modalité. On appelle fréquence relative
de la modalité mj la proportion fj d’individus à présenter cette modalité :
fj
nnj
Pour la représentation graphique des données, on pourra choisir un camembert, ou un diagramme en barres comme en figure 6.
Exercice 6 (Variables qualitatives avec R). — Dans le jeu de données de référence du cours :
1. Afficher la table de fréquence donnant la fréquence des modalités de la variable Orientation
(menu Statistiques > Résumés > Distributions de fréquences), sur l’ensemble des
individus, sans distinction de sexe ou de site.
L’information récoltée est résumée dans le tableau suivant :
Modalités
Effectif nj
Fréquence fj
Est
15
0.3488
Nord
8
0.186
Ouest
11
0.2558
Sud
9
0.2093
°
°n 33
j
fj
1
2. Afficher le diagramme en barres de cette variable (menu Graphes > Graphe en barres).
Vous devriez obtenir le diagramme en figure 6.
Figure 6 – Diagramme en barres (barplot) de la série de données.
Il va de soi que pour une variable qualitative, les notions de moyenne, et par conséquent
également d’écart-type, n’ont pas de sens. On peut par contre parler de mode, qui est la modalité
de plus fort effectif. Ici, le mode est l’Est.
14
Statistique descriptive
§4.3. Cas de variables quantitatives discrètes
Il s’agit d’un cas intermédiaire entre les variables continues et les variables qualitatives. D’une
certaine manière, si le nombre de valeurs prises par la variable est faible, cela s’apparente à une
variable qualitative ordonnée, et on effectue les mêmes représentations et descriptions qu’en section
précédente.
Néanmoins, comme dans le cas des variables continues, les notions de moyenne et d’écart-type
gardent un sens et complètent le tableau.
§4.4. Quantiles empiriques
Définition 11 (Médiane). — On appelle médiane d’une série statistique la valeur qui partage
la série en deux groupes d’effectifs égaux : il y a autant de valeurs qui lui sont inférieures que de
valeurs qui lui sont supérieures.
Par exemple, si l’on dispose des 7 valeurs suivantes : p5, 7, 8, 15, 16, 20, 90q, la médiane est 15
(à comparer avec la moyenne, qui est de 23).
Par contre, si l’on reprend nos durées de vie d’ampoules (p. 10), un classement par ordre
croissant nous donne :
X
p5.4, 9.5, 24.3, 35.7, 57.1, 67.3, 91.6, 118.4, 170.9, 251.3q
Pour coller à la définition, on peut prendre comme médiane toute valeur entre 57.1 et 67.3 : si
l’on prend par exemple 60, on a bien la moitié des durées de vie qui lui sont inférieures, et la moitié
qui lui sont supérieures. Mais ce serait aussi le cas avec 61, ou 62... Le problème vient ici du fait
que nous avons un effectif pair, il n’existe donc pas une unique valeur centrale. Par convention, on
décide alors que la médiane sera p57.1 67.3q{2 62.2.
Définition 12 (Quantile empirique). — Plus généralement, on appelle quantile empirique d’ordre
α% le nombre Qα tel que α% des valeurs de la série sont inférieures à Qα , et p1 αq% des valeurs
sont supérieures à Qα .
Notamment, la médiane est donc un quantile d’ordre 50%. Les autres quantiles très couramment
utilisés sont ceux d’ordre 25% et 75%, et sont respectivement appelés premier et troisième quartile.
Toutes ces informations sont généralement résumées dans un graphique appelé boîte à moustaches
(ou boxplot en Anglais), qui donne une excellente idée visuelle de la répartition des données, et
complète l’information donnée par l’histogramme.
La figure 7 représente les boîtes à moustaches des deux séries de valeurs suivantes :
S1 = c(90.2, 94.4, 80.5, 82.6, 85.3, 93.0, 80.3, 87.5, 91.5, 80.4, 79.4, 95.2,
74.7, 88.0, 86.4, 90.3, 79.8)
S2 = c(87.8, 87.2, 84.1, 83.6, 91.7, 89.8, 95.5, 88.8, 93.4, 92.7, 97.7, 92.3,
84.2, 88.3, 92.3, 93.9, 107.2, 77.3)
Les extrémités des moustaches donnent l’etendue de la série statistique, les extrémités des
boîtes sont les premier et dernier quartile, et la ligne centrale est la médiane.
L’intérêt des boîtes à moustaches est de pouvoir comparer visuellement plusieurs séries de
données afin de savoir laquelle est la plus dispersée (quelle population est la plus variable ?),
laquelle possède la plus grande moyenne ou médiane... De plus, les boîtes à moustaches offrent
la possibilité de détecter des individus dits extrêmes : ils sont indiqués par les deux cercles sur
la série de données S2. Ces individus sortent clairement de la variabilité définie par le reste des
données, et on gagnera, le cas échéant, à se étudier plus précisément leur cas (reprendre ou vérifier
les mesures), et à les exclure des analyses si besoin.
Exercice 7 (Tracé de boîtes à moustaches par groupe). — Tracer en parallèle une boîte à
moustaches de la variable FM1 pour chacun des sites du jeu de données de référence (menu Graphes
> Boîte de dispersion, en utilisant le choix offert par le bouton Graphe par groupe). Peut-on
15 octobre 2015
15
Figure 7 – Comparaison de deux séries statistiques par boxplot
identifier des individus extrêmes ? Quelles conjectures peut-on formuler quant aux moyennes (ou
médianes) et dispersions des différents sites pour la variable étudiée ? Quelle(s) réserve(s) peut-on
néanmoins énoncer en conjecturant ceci ?
§4.5. Liaison entre deux variables numériques
Certaines indicateurs biologiques quantitatifs constituent des « couples » ou « paires » de façon
intuitive : la taille d’un individu et son poids, la longueur et la largeur d’un crâne ou d’un os,
etc. Ces paires de variables sont dites en corrélation positive, dans le sens où lorsqu’une d’entre
elles est élevée, l’autre aura généralement tendance à l’être aussi : ces variables n’évoluent pas
indépendamment l’une de l’autre.
À l’inverse, on peut imaginer des variables évoluant en sens contraire l’une de l’autre : on dit
alors qu’elles sont en corrélation négative. Un exemple économique d’actualité : le taux de chômage
et le taux de croissance évoluent souvent en sens inverse (lorsque l’un des deux est élevé, il est
probable que l’autre sera faible).
Dans le champ de la bio-anthropologie, Sir F. Galton 9 a donné un exemple contre-intuitif de
corrélation négative. Dans une étude publiée en 1886, il montre qu’en Grande-Bretagne, la taille
des enfants était alors inversement proportionnelle à celle de leur père : lorsque qu’un homme était
plus grand que la moyenne, il avait tendance à donner naissance à des enfants plus petits que la
moyenne.
La force de la liaison entre deux variables quantitatives X
peut être évaluée par :
px1 , , xn q et Y py1 , , yn q
1. le coefficient de corrélation linéaire de Pearson si les deux variables sont continues. Il s’agit
d’un coefficient compris entre -1 (corrélation linéaire 10 négative parfaite entre les variables)
et 1 (corrélation linéaire positive parfaite entre les variables). Un coefficient de corrélation
égal à 0 signifie une absence totale de liaison linéaire entre les deux variables.
9. Francis Galton [1822-1911], cousin de Charles Darwin, fut un anthropologue, explorateur, psychologue, géographe, statisticien... Il a inventé un dispositif connu sous le nom de Planche de Galton, illustrant aujourd’hui le
théorème de Moivre-Laplace sur les stands de jeux des fêtes foraines... Mais par ailleurs, il a généralement mauvaise
presse, étant considéré comme l’un des premiers théoriciens de l’eugénisme.
10. Une liaison entre deux variables X et Y est dite linéaire si deux quantités sont liées par une relation de
proportionnalité (X k Y , avec k R). Le coefficient de Pearson permet de savoir si les deux variables étudiées
peuvent se rapprocher d’un tel modèle.
P
16
Statistique inférentielle
Sous Libre Office Calc, il se calcule par la fonction =COEFFICIENT.CORRELATION. Il est
généralement noté ρ. À titre informatif, sa formule est la suivante :
ρpX, Y q °n
pxi xq pyi yq
i 1
SX
SY
2. le coefficient de corrélation de Kendall si les variables sont non-continues (i.e. ordinales).
Son interprétation est identique à celle du coefficient de Pearson.
3. le coefficient de corrélation de Spearman si les variables sont continues et si la liaison est
par nature non-linéaire (i.e. quadratique, cubique, logarithmique, etc.). Son interprétation
est également identique au coefficient de corrélation de Pearson.
Remarque. — Le fait que deux variables soient corrélées ne signifie rien d’autre que le fait qu’il
existe un lien entre elles les poussant à évoluer plus ou moins conjointement. Cela ne signifie
absolument pas que l’une est la cause de l’autre : il se peut très bien qu’une cause tierce (externe)
agissant sur les deux variables soit précisément à l’origine du fait qu’elles évoluent de concorde.
Corrélation et causalité ne sont donc pas synonymes.
Exercice 8 (Nuages de points conditionnels et corrélation avec R). — Avec le jeu de données de
référence du cours :
1. Tracer un nuage de points croisant les variables FM1 et TM6, en utilisant le menu Graphes
> Nuage de points (décocher au passage toutes les cases superflues, cochées par défaut
par le logiciel dans l’onglet Options). Les deux variables paraissent-elles corrélées ?
2. Recommencer l’opération, mais affectant des couleurs différentes aux individus en fonction
de leur sexe (utiliser le bouton Graphe par groupe). De plus, cocher Graphe de lignes
par groupes, et Ligne des moindres carrés dans la fenêtre principale. La nature de la
liaison semble-t-elle être la même pour les hommes et pour les femmes ?
3. Calculer la matrice des corrélations des variables FM1, RM1 et TM6, en utilisant le menu
Statistiques > Résumés > Matrice de corrélations. Quelle est la paire de variables
la plus corrélée ? Et la moins corrélée ?
5. Statistique inférentielle
Les principales notions de statistique inférentielle sont clairement exposées dans [DRV99] (de
façon « semi-mathématisée ») ou [GDM11] (de façon plus intuitive et informelle). Des compléments
utiles sur les tests d’hypothèses pourront également être trouvés dans [Fro07].
Cette partie du cours, étant très sensiblement plus technique, nécessite un effort de documentation et de pratique tout particulier.
§5.1. Retour sur la loi normale
La statistique inférentielle et la théorie des tests font un usage intensif des notions de fonctions
de densité et de répartition. L’exercice suivant vise à se familiariser avec ces fonctions, présentées
en section 2.
Exercice 9 (La loi normale : de la plume à la souris). — On établit ici quelques propriétés
usuelles de la loi normale centrée-réduite à l’aide de considérations informelles sur les fonctions de
densité et de répartition, d’abord sur papier, puis avec R.
1. Soit F la fonction de répartition de la loi N p0, 1q. Sur la figure 8, représenter graphiquement
F p0q et F p2q en coloriant les aires adéquates sous la courbe.
2. À l’aide de la fonction de répartition F , exprimer algébriquement (i.e. sans la calculer) l’aire
comprise sous la courbe de la figure 8, entre les abscisses 0 et 2. Plus généralement, comment
exprime-t-on l’aire comprise sous la courbe entre deux nombres réels a et b quelconques, en
fonction de F ?
15 octobre 2015
17
Figure 8 – Densité de la loi N p0, 1q
3. Dans tout ce qui suit, X N p0, 1q. À l’aide de la fonction de répartition F , exprimer les
probabilités P tX ¤ 0u et P tX ¡ 0u. À quoi correspondent-elles graphiquement, en termes
d’aire sous la courbe, sur la figure 8 ? Plus généralement, exprimer P tX ¡ tu, pour un
nombre réel t quelconque, en fonction de F . Expliquer également comment on interprète
cette probabilité en termes d’aire sous la courbe.
4. En vous aidant de R, donner la valeur numérique de toutes les expressions précédentes. Pour
cela, passer par le menu Distributions > Distributions continues > Distribution
normale > Probabilités normales. Lorsqu’on entre une valeur t quelconque dans la case
Quantile, R renverra (en fonction de votre choix) la valeur de l’aire sous la courbe de densité
de N p0, 1q à gauche de t (ce qui correspond à F ptq P tX ¤ tuq, ou à droite de t (ce qui
correspond à 1 F ptq P tX ¡ tuq.
5. Donner aussi la valeur de : (a) P tX ¡ 2.95u ; (b) P t1 ¤ X ¤ 2u.
Exercice 10 (Quantiles gaussiens). — On a vu précédemment la définition d’un quantile empirique (§4.4, p. 14). On se propose ici d’étudier les quantiles théoriques des lois de probabilité.
( Le
quantile d’ordre α de la loi normale N pµ, σ 2 q est le nombre Qα tel que P N pµ, σ 2 q ¤ Qα α.
1. Déterminer le quantile d’ordre 0.975 de la loi normale N p0, 1q, c’est-à-dire le nombre Q0.975
tel que, si X N p0, 1q, P tX ¤ Q0.975 u = 0.975. Pour cela, utiliser le menu Distributions
> Distributions continues > Distribution normale > Quantiles normaux.
2. Comprendre la traduction concrète de la question précédente : si l’on suppose que l’asymétrie en cm entre les membres supérieurs (définie comme X membre droit – membre
gauche) suit une loi N p0, 1q chez les hommes modernes, alors en prenant un homme au
hasard, on a 97.5% de chances que la différence de longueur entre son membre droit et son
membre gauche soit inférieure à 1.96 centimètres.
3. Application : on suppose que la longueur du fémur suit une loi normale N p435, 22q dans
une population donnée. Calculer la probabilité, lorsqu’on choisit un individu au hasard dans
cette population, d’observer une longueur de fémur : (a) supérieure à 450 ; (b) inférieure
à 430. Calculer également la valeur seuil qui définit les 5% les plus grands dans cette
population (i.e. le quantile d’ordre 0.95).
§5.2. Notion d’intervalle de confiance
L’estimation ponctuelle d’un paramètre à partir d’un échantillon n’offre qu’une information
très partielle, qui peut être complétée par la construction d’un intervalle de confiance pour ce paramètre. Par exemple, on suppose que les longueurs de tibia chez les hommes adultes au sein d’une
certaine population, suivent une loi normale N pµ, σ 2 q à déterminer. On dispose d’un échantillon
de 10 individus, dont les longueurs de tibia sont (en mm) :
457 ; 471 ; 512 ; 463 ; 508 ; 486 ; 461 ; 450 ; 499 ; 487
18
Statistique inférentielle
Plus formellement, cela suppose que nous avons 10 réalisations de variables aléatoires i.i.d. suivant
la loi inconnue N pµ, σ 2 q. On souhaiterait, à l’aide de cet échantillon, estimer paramètre µ, c’està-dire estimer la valeur moyenne théorique des longueurs de fémur de tous les individus de cette
population.
On estime le paramètre µ de la loi normale par la moyenne empirique, qui est ici Xn 479.4.
Cela ne donne que la valeur du paramètre correspondant le mieux aux données, mais la vraie
valeur du paramètre n’est certainement pas celle-ci — elle n’en est peut-être pas loin, mais il
serait illusoire de penser que c’est exactement 479.4. De plus, cette seule estimation ponctuelle ne
donne pas d’information sur la précision de l’estimateur construit 11 .
Pour toutes ces raisons, on préfère généralement disposer d’un intervalle de confiance pour le
paramètre à estimer, c’est à dire une zone entière de valeurs vraisemblables pour le paramètre,
prenant en compte l’incertitude liée aux fluctuations d’échantillonnage. Nous verrons dans la section suivante comment construire dans la pratique un intervalle de confiance pour la moyenne,
mais on admettra ici que l’intervalle de confiance à 95% est IC0.95 pµq r463.5; 495.2s, les bornes
de l’intervalle étant calculées à partir d’une certaine formule sur les données de l’échantillon. Cela
signifie, concrètement, qu’au vu de l’échantillon, la vraie valeur du paramètre µ a 95% de chances
de se trouver entre 463.5 et 495.2 12 .
Définition 13. — Soit un échantillon pX1 , , Xn q i.i.d. selon une certaine loi, et µ un paramètre
inconnu de cette loi. On pose B1 f1 pX1 , , Xn q, B2 f2 pX1 , , Xn q, et on considère l’intervalle rB1 , B2 s qui est donc obtenu à partir des valeurs de l’échantillon. On appelle P tµ P rB1 , B2 su
la probabilité de recouvrement de µ par l’intervalle.
Alors, on appelle intervalle de confiance de niveau 1 α tout intervalle dont la probabilité de
recouvrement du µ est égale à 1 α (il a une probabilité 1 α de contenir la vraie valeur de µ,
ou encore un risque α de ne pas la contenir).
Généralement, on choisit le risque α 0.05, ce qui revient à construire des intervalles de
confiance de niveau 95% — c’est totalement arbitraire mais il y a de nombreuses raisons historiques
à cela, cf. le chapitre 3 de [AB06] pour plus de précisions philosophiques à ce sujet.
§5.3. Intervalle de confiance pour la moyenne
En préamubule, il est nécessaire d’introduire une nouvelle distribution de probabilité, qui est
la loi de Student. Il s’agit d’une loi similaire en forme à la loi normale, et basée sur elle. Une loi de
Student est toujours d’espérance nulle, et ne possède qu’un seul paramètre : son nombre de degrés
de liberté. La loi de Student se « rapproche » de la loi N p0, 1q au fur et à mesure qu’on augmente
ses degrés de liberté (cf. figure 9).
Les lois de Student sont tabulées : pour tout niveau de confiance α Ps0, 1(r, on connaît le quantile
t1α{2 tel que, si T suit une loi de Student, on ait P t1α{2 ¤ T ¤ t1α{2 1 α. Généralement
on choisit α 5%, et on a donc à chaque fois un intervalle rt0.975 ; t0.975 s de probabilité 95% pour
la réalisation d’une variable aléatoire T suivant une loi de Student.
Avec le logiciel R, ces quantiles s’obtiennent via le menu Distributions > Distributions
continues > Distribution t > Quantiles t. Par exemple, le quantile t0.975 d’une loi de Student
à 30 degrés de liberté est approximativement égal à 2.042 (le vérifier rapidement).
Pour détailler la construction d’un intervalle de confiance, on reprend l’exemple de la section
précédente, sur les longueurs de tibia pX1 , , Xn q, l’hypothèse de base étant qu’on les considère
comme des réalisations i.i.d. de variables suivant la loi N pµ, σ 2 q. On note respectivement Xn et
p2 la moyenne empirique et l’écart-type empirique de l’échantillon.
σ
La construction pratique de l’intervalle de confiance de µ est basée sur le théorème 1, que l’on
admettra, et qui fournit une statistique pivot pour le calcul de l’intervalle de confiance.
11. « Les statistiques, c’est comme le bikini : ça donne une idée mais ça cache l’essentiel. » — Coluche
12. De façon plus abstraite, cela signifie également que si l’on tire au hasard 100 échantillons de 10 individus dans
la population (ce qui n’est bien sûr pas possible dans le cas d’études archéologiques !) et que l’on calcule la moyenne
empirique de chacun d’entre eux, environ 95 moyennes empiriques sur 100 se trouveront dans cet intervalle.
15 octobre 2015
19
Figure 9 – Lois de Student
Théorème 1. — Si un échantillon pX1 , , Xn q est i.i.d. selon une loi normale N pµ, σ 2 q, alors
Xn µ
suit une loi de Student à n 1 degrés de liberté.
la quantité T a
p 2 {n
σ
(
Cela signifie donc que P t1α{2 ¤ T ¤ t1α{2 1 α, où t1α{2 est le quantile d’ordre
1 α{2 de la loi de Student à n 1 degrés de liberté. Or, on a :
(
#
p1 αq : P t1α{2 ¤ T ¤ t1α{2 : P t1α{2 ¤
#
P t1α{2
P
#
c
p2
σ
n
Xn t1α{2
¤ Xn µ ¤ t1α{2
c
p2
σ
n
¤ µ ¤ Xn
c 2+
p
σ
Xn µ
a 2
σ
p {n
¤ t1α{2
+
n
t1α{2
c 2+
p
σ
n
Pour α 0.05, on obtient en particulier le très classique intervalle de confiance à 95% pour la
moyenne µ :
#
P µ P Xn t0.975
c
p2 ; X
σ
n
n
t0.975
c 2 +
p
σ
0.95
n
(1)
Pour résumer le principe « en Français » : on dispose au début d’un certain échantillon
pX1 , , Xn q, que l’on suppose issu d’une loi normale N pµ, σ2 q de paramètres inconnus. Compte
tenu des données dont on dispose, la vraie valeur du paramètre µ a 95% de chances de se trouver
dans l’intervalle ci-dessus.
Remarque. — Toute cette procédure repose sur la normalité des données. Pour qu’elle soit applicable, il faut donc être capable d’affirmer que les données en question suivent bien une loi normale.
Pour cela, on peut appliquer un test de normalité (cf. p. 27) qui permettra de dire si l’hypothèse
de normalité est compatible avec les données. Cependant, la question ne se pose que si l’on dispose
d’un petit effectif (i.e., par tradition, n 30). Au-delà, l’application d’un test de normalité est
superflue, et l’intervalle de confiance est applicable quoi qu’il arrive. 13
13. Cela provient du théorème central limite, qui dit en substance que pour les grands effectifs (i.e. tels que
n
30, toujours selon une tradition assez arbitraire), la moyenne empirique Xn suit une loi normale même si les
données de base X1 ,
, Xn ne la suivent pas.
¡
p
q
20
Statistique inférentielle
p et de α sur la largeur de
Exercice 11 (Examen 2011–2012). — Quelle est l’influence de n, de σ
l’intervalle de confiance ? Quelle en est à chaque fois l’interprétation intuitive ?
Indication. — Remarquer
l’intervalle de confiance est centré sur la moyenne empirique Xn , et
aque
p2 {n. Comment cette largeur varie-t-elle lorsque l’on fait varier l’un des
est de largeur 2 t1α{2 σ
paramètres n, σ
p et α, les deux autres étant laissés constants ?
Exercice 12 (Intervalle de confiance pour la moyenne avec R). — Pour le jeu de données de
référence du cours, on suppose que la variable FM1 suit une loi normale pour chaque sexe. On
souhaite calculer un intervalle de confiance pour la moyenne de la variable FM1 chez les femmes,
toutes populations confondues. Après n’avoir retenu que les femmes du jeu de données (cf. exercice
3 pour rappel, si besoin), calculer l’intervalle de confiance en utilisant le menu Statistiques >
Moyennes > t-test univarié. Sélectionner la variable FM1 et cliquer sur OK. R indique l’intervalle de confiance au niveau de la ligne 95 percent confidence interval dans la fenêtre de
sortie. L’intervalle de confiance obtenu vous paraît-il suffisamment informatif ?
§5.4. Intervalle de confiance pour la variance
Cet intervalle, bien qu’étant beaucoup moins souvent utilisé que l’intervalle de confiance pour
la moyenne, présente tout de même un intérêt à la fois pratique et théorique. La construction de
l’intervalle de confiance pour la variance est basée sur le résultat suivant :
p2
Théorème 2. — Soit un échantillon pX1 , , Xn q i.i.d. selon une loi normale N pµ, σ 2 q, et σ
l’estimateur empirique de la variance (cf. p. 11). Alors, la quantité
à n 1 degrés de liberté.
pn1qpσ2 suit une loi de Pearson
σ2
Les lois de Pearson (dites aussi, de façon peut-être un peu abusive, « lois du χ2 ») sont des lois
continues sur r0, 8r, c’est à dire qu’elles ne « génèrent » que des nombres positifs. Comme pour
les lois de Student, elles ne possèdent qu’un paramètre, qui est le nombre de degrés de liberté.
Soit Z une variable aléatoire suivant une loi de Pearson à ν degrés de liberté (on note Z χ2ν ).
On peut obtenir, par exemple avec R en utilisant le menu Distributions > Distributions
continues > Distribution du Chi-deux > Quantiles du Chi-deux, deux quantiles kn1;0.025
et kn1;0.975 qui définissent un domaine de confiance à 95% pour Z :
P tkn1;0.025 Z
kn1;0.975 u 0.95
On a donc, d’après le théorème 2, en posant Z
"
0.95 P kn1;0.025
2
pn 1qσp k
σ2
pnσ1qpσ
n 1;0.975
2
*
2
P
:
"
σ
2
*
2
2
p
n 1qσ
p
p
n 1qσ
p
P k
;
k
n 1;0.975
n 1;0.025
En d’autres termes, au vu des données observées, la « vraie valeur de la variance » a 95% de
chances de se trouver dans l’intervalle ci-dessus.
§5.5. Principe des tests d’hypothèses paramétriques
5.5.1. Objectifs. — Comme précédemment exposé, les données dont on dispose en pratique
(un échantillon constitué de n réalisations de variables aléatoires) sont brouillées par des fluctuations d’échantillonnage. Si l’on cherche par exemple à savoir si la taille moyenne des individus
d’une population B est plus élevée que celle des individus d’une population A, on peut prendre
10 individus A d’un côté, 10 individus B de l’autre, et comparer les moyennes de leurs tailles
(respectivement notées mA et mB ). Mettons que l’on trouve mA 168 cm, et mB 171 cm. On
peut émettre l’hypothèse que la taille moyenne dans la population complète A est supérieure à
la taille moyenne dans la population complète B, ce qui implique implicitement d’avoir confiance
en la représentativité de l’information délivrée par nos échantillons. Émettre cette hypothèse revient à considérer que la différence observée entre mA et mB relève d’une véritable différence
populationnelle et non du simple hasard d’échantillonnage.
15 octobre 2015
21
En effet, si l’on recommençait la procédure avec 10 nouveaux individus A et 10 nouveaux individus B, on obtiendrait peut-être un résultat très différent, voire contradictoire ! Ainsi, on souhaite
disposer d’une procédure qui nous permettra d’évaluer, pour une taille donnée d’échantillons, les
chances que la différence observée entre les deux échantillons puisse ne relever que des seules fluctuations d’échantillonnage. Si ces chances sont élevées, rien ne s’opposera alors à supposer que les
deux populations sous-jacentes possèdent le même paramètre moyen pour la taille des individus.
Si, au contraire, ces chances sont faibles, alors la différence observée n’est pas un simple hasard :
les deux populations sous-jacentes ont sans doute des tailles moyennes différentes, et peut-être
même très différentes.
5.5.2. Heuristique des tests d’hypothèses. — Un test statistique, formellement, doit
choisir entre deux hypothèses H0 et H1 qui sont la négation l’une de l’autre, et qui peuvent se
résumer à une alternative oui/non. Pour apporter sa réponse, le test s’appuie sur un (ou plusieurs)
échantillon(s) de données qu’on suppose suivre une loi donnée — généralement une loi normale.
La question doit porter sur les paramètres de la loi (typiquement, espérance ou variance), d’où le
nom de tests paramétriques.
L’hypothèse H0 , dite hypothèse nulle 14 joue un rôle particulier : le but du test est de réunir
suffisamment de preuves au sein des données pour démontrer qu’elle est fausse. Si c’est le cas,
l’hypothèse nulle est rejetée, et on accepte alors sa négation H1 . Dans le cas contraire, on ne rejette
pas H0 , « faute de preuves », et on dit sobrement que les données ne sont pas incompatibles avec
cette hypothèse... ce qui ne veut pas dire qu’elle est vraie !
Pour reprendre une image assez parlante de [DRV99], H0 bénéficie de la présomption d’innocence, et ne sera condamnée que si on a suffisamment d’évidences. Sinon, le juge (le test) la
relâchera... ce qui n’est pas en soi une preuve d’innocence !
5.5.3. Principe de fonctionnement. — Tous les tests paramétriques fonctionnent de la
même manière : à partir des données pX1 , , Xn q, ils calculent une certaine quantité T f pX1 , , Xn q, appelée statistique de test, qui doit théoriquement suivre une certaine loi L (connue
et tabulée) si H0 est vraie. Étant bien connue, on sait parfaitement quelles sont les valeurs probables ou improbables qu’on peut obtenir à partir de cette loi. Il suffit alors de regarder si la valeur
observée de la statistique de test, notée Tobs , « tombe » dans un domaine de valeurs probables ou
improbables pour L :
— si Tobs tombe dans un domaine de valeurs probables pour L, alors il n’y a pas d’opposition
à ce que H0 soit vraie ;
— si Tobs tombe dans un domaine de valeurs très improbables pour L, alors il y a une contradiction : si H0 était vraie, alors T devrait suivre la loi L... et pourtant, dans la pratique,
Tobs est une valeur très improbable pour L ! C’est donc que très certainement, T ne suit
pas la loi L, et par conséquent que H0 est fausse... On décide de rejeter H0 .
En cela, on peut dire 15 qu’un test d’hypothèses s’apparente vaguement à un raisonnement
par l’absurde : l’hypothèse nulle H0 , qui est l’hypothèse d’identité, est généralement celle que
l’on souhaite rejeter. On espère donc simplement trouver au sein des données suffisamment de
contradictions (probabilistes) avec le fait que H0 soit vraie.
5.5.4. Risques d’erreur. — Afin de définir ce « domaine de valeurs probables » pour la loi
L, on se donne un risque 0 α 1, généralement petit (α 0.05, voire α 0.01 sont les valeurs
les plus communément choisies). On peut alors déterminer, par une recherche de quantiles, un
domaine D1α de valeurs « compatibles avec l’hypothèse nulle », ayant une probabilité p1 αq
pour la loi L. Tout ce qui est à l’extérieur de ce domaine est défini comme une « zone de rejet »
Rα : une variable aléatoire suivant L n’a qu’une probabilité (un risque) α d’y tomber.
14. L’hypothèse nulle est toujours l’hypothèse d’identité : par exemple, si le but est de comparer les moyennes
de deux populations, l’hypothèse H0 sera toujours µA µB .
15. Mais à voix basse...
22
Statistique inférentielle
Figure 10 – Un exemple quelconque de loi L : le domaine D1α est défini par l’intervalle
rtα{2 , t1α{2 s, et la zone de rejet Rα , constituée de valeurs improbables, est hachurée.
La règle de décision est alors très simple : conformément à ce qui a été énoncé plus haut, si la
valeur observée Tobs est dans D1α il n’y a aucune contradiction et donc on conserve H0 , tandis
que si Tobs est dans Rα on rejette H0 .
Néanmoins, il est toujours possible que l’hypothèse H0 soit réellement vraie, donc que T L, et
que pourtant Tobs tombe hors de D1α : par définition, cela peut se produire avec une probabilité
α. En d’autres termes, nous assumons à chaque fois un risque, une probabilité α de nous tromper
en rejetant à tort l’hypothèse H0 : c’est le risque de première espèce.
On retiendra ceci : le risque α, fixé à l’avance, représente le risque que l’on assume, de pouvoir
rejeter à tort H0 , alors qu’elle était vraie.
5.5.5. La p-valeur d’un test. — Dans la pratique, les logiciels renvoient toujours un nombre
0 p 1, appelé p-valeur du test. Il s’agit de la probabilité d’observer une valeur de la statistique
de test au moins aussi défavorable que Tobs pour l’hypothèse nulle (c’est-à-dire, la probabilité
d’observer une valeur au moins aussi improbable pour L). Formellement, si X L, on a p P t|X | ¡ Tobs u. La p-valeur d’un test d’hypothèses est donc également la probabilité de prendre
la mauvaise décision si l’on fait le choix de rejeter l’hypothèse nulle.
Un peu de réflexion suffit alors pour comprendre que
Rejet de H0
ðñ tt P Rα u ðñ tt R D1α u ðñ tp αu
Moralité de l’histoire (en Français — ouf) : avant d’effectuer le test, on se fixe un risque α. Si
la p-valeur renvoyée par le logiciel est plus petite que α, on rejette H0 et on accepte H1 . Si au
contraire p ¡ α, rien ne s’oppose à ce que H0 soit vraie. De manière générale, plus la valeur de de
p est proche de 0, et plus la contradiction entre H0 et les données observées est grande.
Comme dans la plupart des domaines, on prend absolument toujours α 0.05, le résultat d’un
test mené informatiquement se lit ainsi :
— si p ¤ 0.05, on rejette H0 ;
— si p ¡ 0.05, les observations ne sont pas fondamentalement en contradiction avec l’hypothèse
nulle, on ne la rejette donc pas.
Exemple. — Pour une alternative entre deux hypothèses H0 {H1 , un test nous renvoie une valeur
p 0.003. Cela signifie qu’il n’y a que 0.3% de chances d’observer une valeur de la statistique
de test au moins aussi défavorable que Tobs pour l’hypothèse nulle. En d’autres termes, Tobs
fait donc partie d’un ensemble de valeurs qu’on n’a que 0.3% de chances d’observer si H0 est
vraie ; donc, nous n’avons que 0.3% de risques de nous tromper en disant que H0 est fausse.
Au seuil d’erreur classique α 0.05, on rejette H0 (mais ce serait aussi le cas aussi aux seuils
α 0.03, α 0.01, α 0.005, jusqu’au seuil α 0.003).
15 octobre 2015
23
À l’inverse, si le test renvoie une valeur p 0.85, cela signifie qu’il y avait 85% de chances
d’observer une valeur de la statistique de test plus défavorable que Tobs pour l’hypothèse nulle. En
d’autres termes, Tobs fait partie des valeurs les plus probables pour L, donc les plus en cohérence
avec l’hypothèse H0 , et il nous faudrait assumer un risque d’erreur de 85% en la déclarant fausse !
Cela serait évidemment absurde, et l’hypothèse nulle est donc conservée.
§5.6. Tests paramétriques usuels
5.6.1. Comparaison de la moyenne à une valeur de référence. — On dispose d’un
échantillon pX1 , , Xn q qu’on suppose issu d’une loi normale N pµ, σ 2 q de paramètres inconnus.
La question que l’on se pose ici est de savoir si l’on peut considérer que la moyenne µ est égale à
une certaine valeur de référence µ0 . Les données sont-elles en accord avec cette hypothèse ?
Soit µ0 une valeur donnée (par exemple µ0
suivantes :
— H0 : « µ µ0 »
— H1 : « µ µ0 »
3.5q. Le test doit choisir entre les deux hypothèses
Sous l’hypothèse H0 , les données Xi suivent une loi N pµ0 , σ 2 q. Alors, selon le théorème 1, on
sait que :
Xn µ0
stn1
T a
σ
p 2 {n
T est la statistique de test, et suit cette loi dans le cas où H0 est vraie. Ainsi, le test de niveau α
consiste simplement à déterminer (par exemple avec R) le quantile t1α{2 de cette loi de Student,
c’est-à-dire le nombre tel que l’intervalle rt1α{2 , t1α{2 s soit de probabilité 1 α pour la loi
de Student à n 1 degrés de liberté. Comme énoncé précédemment, la règle de décision au seuil
d’erreur α est la suivante :
— si Tobs est dans rt1α{2 , t1α{2 s, on conserve l’hypothèse H0 ;
— si Tobs est hors de rt1α{2 , t1α{2 s, on rejette l’hypothèse H0 .
Exemple (Un test de Student « à la main »). — Voici les volumes endocraniens (en cm3 ) de 9
individus sapiens adultes, supposés issus d’une loi N pµ, σ 2 q :
X = c(1348.7, 1333.4, 1332.3, 1366.8, 1326.1, 1360.0, 1349.7, 1419.0, 1356.6)
1. On pourra vérifier que la moyenne empirique est X 1354.73, et l’écart-type empirique
sans-biais est σ
p 27.72 — avec la console R, utiliser les commandes mean et sd.
2. Si l’on veut un intervalle de confiance à 95% pour l’espérance µ, on peut procéder comme
dans l’exercice 12 avec la commande t.test de R. On peut aussi le calculer à la main en
déterminant le quantile t0.975 correspondant à α 0.05 et ν 9 1 8 : c’est 2.3. On a
alors, en utilisant la formule (1) p. 19 :
IC0.95 pµq 1354.73 2.3 27.72
; 1354.73
3
2.3 27.72
3
r1333.5, 1376s
3. Un chercheur pense depuis longtemps que le volume théorique moyen chez les sapiens est
µ0 1370 cm3 . L’échantillon qu’il a recueilli est-il compatible avec son hypothèse, au niveau
α 0.05 ? On calcule la valeur observée de la statistique de test :
Tobs
1370 1.65
1354.73
27.72{3
Cette valeur rentre bien dans le domaine de confiance à 95% pour la loi de Student à 8 degrés
de liberté, qui est r2.3, 2.3s. Ainsi, les observations sont compatibles avec les hypothèses
du chercheur. Pour information, la p-valeur du test renvoyée par l’ordinateur est de 0.13.
24
Statistique inférentielle
4. Un autre chercheur, quant à lui, pense que le volume endocranien moyen chez les sapiens
est µ0 1330 cm3 . L’échantillon est-il compatible avec son hypothèse ? On a ici :
Tobs
1330 2.69
1354.8
27.7{3
Cette valeur ne rentre pas dans le domaine de confiance r2.3, 2.3s : c’est une valeur improbable pour une loi de Student à 8 degrés de liberté. Ainsi, T ne suit sans doute pas cette
loi, donc on rejette H0 (au seuil d’erreur α 0.05). Pour information, la p-valeur du test
était cette fois-ci p 0.027 0.05.
Exercice 13 (Test de Student univarié avec R). — Avec R, le test de Student de comparaison à
une valeur de référence s’effectue grâce au menu Statistiques > Moyennes > t-test univarié.
Dans le jeu de données de référence du cours :
1. Tester l’hypothèse selon laquelle l’espérance de la variable RM1, chez les femmes (sans
distinction de site) est égale à 215.
2. Même question avec des valeurs de 225 et de 218.
3. Quelle remarque pouvez-vous faire vis-à-vis de l’acceptation ou du rejet de H0 , selon que
la valeur µ0 est comprise ou pas dans l’intervalle de confiance pour la moyenne ?
5.6.2. Comparaison de deux variances. — Il s’agit cette fois de comparer la dispersion
de deux échantillons, afin de savoir par exemple s’il existe une variabilité nettement plus grande
dans une population que dans une autre pour une mesure donnée.
Disposant de deux échantillons pX1 , , Xn1 q et pY1 , , Yn2 q suivant respectivement des lois
normales N pµ1 , σ12 q et N pµ2 , σ22 q, on veut effectuer un test, dit test de Fisher, entre les hypothèses :
— H0 : « σ12 σ22 »
— H1 : « σ12 σ22 »
Théorème 3. — Soient σ
p12 et σp22 les variances empiriques respectives des échantillons X et Y .
p12 {σp22 suit une loi de Fisher-Snedecor à n1 1
Alors, si l’hypothèse H0 est vraie, le rapport 16 F σ
et n2 1 degrés de liberté.
Les lois de Fisher-Snedecor sont des lois continues sur r0,
8r possèdant deux degrés de liberté.
Il s’agit comme précédemment de rejeter H0 si la valeur observée Fobs du rapport F est une
valeur trop improbable (trop grande) pour que l’on puisse raisonnablement considérer qu’elle est
issue d’une loi de Fisher-Snedecor. Soit f1α le quantile unilatère tel que P tF ¤ f1α u 1 α,
que l’on peut par exemple obtenir avec R en utilisant le menu Distributions > Distributions
continues > Distribution F > Quantiles F.
Figure 11 – Loi de Fisher-Snedecor, et règle de décision : H0 est rejetée si Fobs tombe dans la
zone hachurée
16. Ou, plus rigoureusement, le rapport F
élevée au numérateur.
maxppσ12 , pσ22 q{ minppσ12 , pσ22 q, car on place toujours la valeur la plus
15 octobre 2015
25
La règle de décision d’un test de niveau α est donc la suivante :
— si Fobs ¤ f1α , alors on conserve H0 ;
— si Fobs ¡ f1α , alors la Fobs est sans doute trop grand pour être issu d’une loi de FisherSnedecor, et on rejette H0 .
Exemple (Un test de Fisher « à la main »). — On reprend les données X des volumes endocraniens
des sapiens actuels (p. 23), et on y ajoute une seconde série de données Y , qui représente les volumes
endocraniens chez 8 sapiens archaïques :
Y = c(1280.6, 1292.9, 1357.5, 1298.0, 1283.2, 1322.7, 1275.7, 1254.9)
La variance empirique de X était σ
p12 27.722 768.4, et celle de Y est σp22 1001.47. Ainsi,
on a Fobs 1001.47{768.4 1.3. Cette valeur est à comparer avec la valeur de niveau α 0.05
fournie par R ou une table pour ν1 9 1 8 et ν2 8 1 7 : c’est f0.95 3.73.
On a largement Fobs f0.95 donc on ne rejette pas l’hypothèse H0 . Qualitativement, l’hypothèse selon laquelle la variabilité des volumes endocraniens chez les sapiens actuels et les sapiens
archaïques est comparable, est en accord avec les données des échantillons. Pour information, la
p-valeur du test est de 0.71.
Exercice 14 (Test de comparaison de variances avec R). — Avec R, le test de comparaison de
deux variances s’effectue en utilisant le menu Statistiques > Variances > Test F de deux
variances. Dans le jeu de données de référence du cours, la variance de la variable TM6 peut-elle
être considérée comme identique chez les hommes et chez les femmes ? Effectuer un test de Fisher.
Le résultat obtenu est-il en accord avec le résultat visuel fourni par des boîtes à moustaches ? Si
besoin, cf. exercice 7 p. 15 pour un rappel sur les boîtes à moustaches.
5.6.3. Comparaison des moyennes de deux échantillons indépendants. — On dispose
là encore de deux échantillons pX1 , , Xn1 q et pY1 , , Yn2 q suivant respectivement des lois
normales N pµ1 , σ12 q et N pµ2 , σ22 q, et on veut effectuer un test, dit test de Student de comparaison
des moyennes, afin de choisir entre les deux hypothèses :
— H0 : « µ1 µ2 »
— H1 : « µ1 µ2 »
On dit que les échantillons sont indépendants si aucun individu n’est présent simultanément
dans les deux groupes : c’est le cas par exemple pour la comparaison de sapiens modernes et
archaïques.
Un test de Student de comparaison des moyennes permet par exemple de répondre à la question
suivante : au vu des données, est-il raisonnable de penser le volume endocranien théorique moyen
est le même chez les sapiens modernes et chez les sapiens archaïques ?
Avant d’appliquer ce test, il est conseillé de commencer par un test de comparaison des variances. Intuitivement, cela se justifie : il n’est pas équivalent de comparer les moyennes de deux
populations ayant à peu près la même dispersion, et les moyennes de deux populations ayant des
dispersions très différentes. Ainsi, on suivra deux procédures différentes selon le résultat du test
de comparaison des variances : si les variances sont comparables, le test de Student stricto sensu
s’appliquera ; dans le cas contraire, une légère correction connue sous le nom de test de Welch sera
effectuée par R pour tenir compte de l’hétérogénéité des variances.
(i) Si le test de comparaison des variances σ12 et σ22 ne rejette pas l’hypothèse nulle (égalité
des variances), alors il ne paraît pas déraisonnable de considérer que les deux populations ont
une dispersion similaire. On calcule ainsi un estimateur de la dispersion commune, qui est une
moyenne pondérée des écarts-types des deux populations :
p2
σ
pn1 1nqσp1 n pn22 1qσp2
2
1
2
2
Remarque. — Dans la littérature anglo-saxonne, cet estimateur est appelé pooled variance.
26
Statistique inférentielle
On s’appuie alors sur le théorème suivant :
Théorème 4. — Sous l’hypothèse H0 d’égalité des moyennes µ1 et µ2 ,
T
b
Ȳ
X̄
σ
p2 p n11
1
n2
q
stn
1
n2 2
On dispose ainsi d’une statistique de test T dont on connaît la loi. Pour un niveau α donné, le
test de niveau α consiste comme précédemment à vérifier si la valeur observée Tobs tombe ou non
dans la zone de rejet Rα .
Figure 12 – Règle de décision : H0 est rejetée si Tobs est dans la zone hachurée, et est conservée
sinon.
(ii) Si le test de comparaison des variances σ12 et σ22 rejette l’hypothèse nulle, alors les variances
des deux populations sont significativement différentes. Prendre un estimateur de la dispersion
commune aux deux populations ne serait alors pas pertinent, et nous n’avons d’autre choix que
p12 et σp22 .
de conserver les deux valeurs séparées σ
On s’appuie alors sur le résultat suivant :
Théorème 5. — Sous l’hypothèse H0 d’égalité des moyennes µ1 et µ2 ,
T
b X̄ Ȳ
p
2
σ1
n1
p
2
σ2
n2
stn
1
n2 2
On suit la même règle de décision : rien ne change fondamentalement par rapport au cas
précédent, on s’abstient juste de calculer un estimateur de variance commune.
Exemple (Test de comparaison de deux moyennes « à la main »). — On effectue le test de comparaison des moyennes entre les sapiens modernes et archaïques. Nous avons déjà vu que le test
d’égalité des variances conservait l’hypothèse nulle : nous calculons donc l’estimateur de variance
commune :
2
2
p2 p8 27.7 q 15 p7 31.6 q 877.3
σ
La statistique de test est donc :
Tobs
1354.8 1295.7
?877.3
p1{9 1{8q 4.1
Cette valeur est à comparer avec la valeur t1α{2 donnée par la table pour α 0.05 et ν 9 8
2 15 : il s’agit de 2.13. Ainsi, Tobs est assez largement en dehors de l’intervalle r2.13, 2.13s, et on
rejette (confortablement) l’hypothèse nulle. Pour information, la p-valeur du test était p 0.0009,
ce qui est très faible. Les données sont ainsi très fortement en contradiction avec l’hypothèse que
le volume endocranien des sapiens archaïques est comparable à celui des sapiens actuels.
15 octobre 2015
27
Exercice 15 (Test de Student pour échantillons indépendants avec R). — Avec R, le test de comparaison de deux échantillons indépendants s’effectue grâce au menu Statistiques > Moyennes
> t-test indépendant— on notera que R vous demande si les variances des deux populations
sous-jacentes peuvent être considérées comme égales. Procéder à la comparaison des moyennes de
la variable RM1 en fonction du sexe des individus.
5.6.4. Comparaison des moyennes de deux échantillons appariés. — Deux échantillons sont appariés s’ils sont de même effectif n, et si les valeurs de X et de Y vont par paires
— en particulier lorsqu’elles sont mesurées sur les mêmes individus. C’est un cas classique en
médecine : par exemple, comparaison du taux de glycémie X d’individus sans traitement contre
le diabète, et du taux de glycémie Y de ces mêmes individus après un mois de traitement contre
le diabète 17 .
Ici, les valeurs ne doivent pas être lues dans n’importe quel ordre, mais deux à deux, pX1 , Y1 q,
, pXn , Yn q. Il ne s’agit plus de comparer les moyennes d’ensemble de X et de Y , mais bel et
bien de comparer à 0 la différence des valeurs Xi Yi , c’est à dire par exemple de savoir si le
traitement contre le diabète induit bien une baisse du taux de glycémie, individu par individu.
D’un point de vue théorique, on procède donc de la manière suivante :
1. Calcul des différences Di Xi Yi pour chaque paire de valeurs.
2. On obtient ainsi n valeurs pD1 , , Dn q avec pour problématique de comparer leur moyenne
à 0. On opère donc tout simplement un test de comparaison de la moyenne à une valeur de
référence (cf. p. 23).
Avec R, le test de Student apparié s’effectue grâce au menu Statistiques > Moyennes >
t-test apparié.
§5.7. Tests de normalité
Les tests de normalité répondent à une problématique simple : étant donné un échantillon
i.i.d. pX1 , , Xn q, est-il raisonnable de considérer que c’est une loi normale qui sous-tend le
phénomène de génération des données ? Par exemple, si on a un échantillon de 20 longueurs de
tibias d’hommes adultes européens, est-il raisonnable de penser que la longueur du tibia chez
l’homme adulte en Europe suit une loi normale ? Répondre à cette question est essentiel, puisqu’il
s’agit d’une condition nécessaire pour avoir le droit d’utiliser les tests de Student et Fisher 18 .
Le test spécifique de normalité le plus connu est le test de Shapiro-Wilk, mais il en existe
une multitde (Shapiro-Francia, Jarque-Bera, Lilliefors, ...). On peut également citer le test de
Kolmogorov-Smirnov, plus général, qui permet de tester l’adéquation à n’importe quelle distribution théorique donnée.
Tous fonctionnent de la même manière : l’hypothèse nulle est que les données suivent une loi
normale, et la p-valeur s’interprète donc de la façon suivante :
— si p ¤ 0.05, rejet de l’hypothèse nulle, donc les données ne suivent pas une loi normale ;
— si p ¡ 0.05, l’hypothèse de normalité est compatible avec les données (il n’existe pas dans
les données suffisamment de preuves pour accréditer une non-normalité).
Remarques. — (i) La plupart des logiciels acceptent d’effectuer un test de normalité si l’échantillon est de taille n ¥ 3. Néanmoins, pour de trop petits effectifs, un tel test n’a absolument aucun
intérêt puisqu’il renverra quasi systématiquement un p ¡ 0.05, faute de preuves suffisantes pour
conclure à une non-normalité des données. On préfèrera donc s’abstenir de tester la normalité d’un
échantillon d’effectif n ¤ 7 ou 8, au grand minimum.
(ii) Parallèlement (et peut-être, pourrait-on dire, préférentiellement) à l’application d’un test
de normalité, il est bon de regarder la forme l’histogramme des données, afin d’essayer de voir si
l’histogramme évoque vaguement la « cloche » de la loi normale.
17. Un autre exemple plus proche des préoccupations anthropologiques est la mesure d’un même os pour la partie
droite et la partie gauche du corps.
18. Comme précédemment signalé, on peut toutefois se passer de la vérification de l’hypothèse de normalité si
l’on dispose de plus de 30 individus dans l’échantillon.
28
Statistique inférentielle
(iii) La présence d’outliers peut conduire au rejet (à tort !) de l’hypothèse de normalité. Avant
de procéder au test, assurez-vous donc de l’absence d’individus aberrants (par exemple en traçant
une boîte à moustaches) 19 .
Exercice 16 (Test de Shapiro-Wilk avec R). — Nous avions précédemment vu (exercice 5) que
la variable RM1 ne semblait pas suivre une loi normale lorsqu’elle est considérée sur l’ensemble
des individus, au vu son histogramme. Sur le jeu de données de référence, tester la normalité de
cette variable (menu Statistiques > Résumés > Test de normalité de Shapiro-Wilk). Quel
commentaire peut-on formuler ?
§5.8. Équivalents non-paramétriques des tests usuels
Lorsque l’hypothèse de normalité n’est pas vérifiée, tous les tests précédents sont inapplicables.
Les appliquer malgré tout pourrait conduire à des résultats considérablement faussés, et à tirer
des conclusions erronées.
Il existe des tests dits non-paramétriques qui ne requièrent aucune hypothèse quant à la distribution des données, et fonctionnent dans tous les cas. Ils sont bien évidemment applicables même
si les données sont normales, mais il n’est pas dans notre intérêt de les utiliser dans ce cas : ils sont
un peu moins puissants, moins efficaces que les tests paramétriques traditionnels, et ne doivent
donc être considérés que comme une solution de secours, « faute de mieux ».
Il n’existe pas de tests non-paramétriques pour comparer des moyennes : on remplace cette
comparaison par la comparaison des médianes. Lorsque l’histogramme des données de l’échantillon
a une forme à peu près symétrique, médiane et moyenne sont souvent proches l’une de l’autre :
cela revient donc à peu près au même. Si l’histogramme présente une asymétrie très prononcée,
moyenne et médiane peuvent être assez différentes : le test non-paramétrique fournira donc une
information assez différente de celle qu’aurait donné un test de Student.
Les tests de comparaison de médianes les plus connus sont :
— dans le cas d’échantillons indépendants, le test de Mann-Whitney, ou le test de la somme
des rangs de Wilcoxon ;
— dans le cas d’échantillons appariés, le test des signes et des rangs de Wilcoxon.
Lorsqu’on effectue ces tests par ordinateur, on choisit comme toujours un risque α 0.05 et
la lecture des résultats est la même que précédemment :
— si p ¤ 0.05, alors les deux échantillons ont une médiane significativement différente ;
— si p ¡ 0.05, il n’est pas possible au vu des données de dire que les médianes sont significativement différentes : la différence observée entre les médianes des deux échantillons est
compatible avec une simple fluctuation d’échantillonnage.
Exercice 17 (Test de Wilcoxon avec R). — Appliquer un test de Wilcoxon pour comparer, sans
distinction de sites, la médiane de la variable FM1 selon le sexe de l’individu. Pour cela, utiliser le
menu Statistiques > Tests non paramétriques > Test de Wilcoxon bivarié. Conclure.
§5.9. Test d’indépendance du χ2
Il existe « plusieurs » tests du χ2 , qui obéissent en réalité à la même logique. Il existe un test
dit d’adéquation, qui vise à déterminer si un échantillon est suceptible d’être issu d’une loi de
probabilité théorique donnée, et un test dit d’indépendance. Nous ne nous intéresserons qu’à ce
dernier test dans ce cours. En effet, le test d’adéquation est plus rarement utilisé, sauf peut-être
en paléodémographie (adéquation d’un profil de mortalité avec un profil théorique).
19. Il existe aussi des tests statistiques permettant de détecter des valeurs aberrantes dans une série de données,
tels que les tests de Dixon ou de Grubbs. Il est difficile de trouver de la documentation sur ces tests, mais ils
sont implémentés dans le package outliers de R. Pour plus d’information, installer ce package et consulter sa
documentation.
15 octobre 2015
29
Définition 14 (Table de contingence). — Soient X et Y deux variables qualitatives, possédant
respectivement I et J modalités. On appelle table (ou tableau) de contingence de X et de Y ,
la table à I lignes et J colonnes, où chaque case pi, j q donne le nombre d’individus possédant
simultanément la ie modalité de X et la j e modalité de Y .
Le test d’indépendance du χ2 a classiquement pour but de déceler un lien, une dépendance,
entre deux variables qualitatives croisées au sein d’un tableau de contingence.
Exercice 18 (Générer une table de contingence avec R). — Dans certains logiciels informatiques,
les tables de contingence sont parfois appelées tris croisés. On souhaite, dans le jeu de données de
référence du cours, générer la table de contingence des variables Sexe et Orientation afin de voir
si certaines orientations apparaissent préférentiellement chez les femmes ou chez les hommes. Générer cette table en utilisant le menu Statistiques > Tables de contingence > Tri croisé.
Choisir le sexe comme variable en ligne et l’orientation comme variable en colonnes 20 . Cochez
également la case Pourcentages en ligne, et, pour l’instant, laisser décochée la case Test du
Chi-deux d’indépendance. On obtient ainsi les tables 2 et 3.
Femmes
Hommes
Est
2
13
Nord
2
6
Ouest
8
3
Sud
7
1
Table 2 – Table de contingence des variables Sexe et Orientation.
À cause de la différence d’effectifs (il y a plus d’hommes que de femmes dans l’échantillon
sur lequel porte notre étude), la lecture du tableau précédent est faussée : nous ne intéressons
pas aux effectifs bruts, mais aux proportions, aux pourcentages. Pour se faire une meilleure idée,
on préfèrera donc une lecture en fréquences ou pourcentages, qui reflètera mieux d’éventuelles
différences :
Femmes
Hommes
Est
10.5
56.5
Nord
10.5
26.1
Ouest
42.1
13
Sud
36.8
4.3
Table 3 – Pourcentages des orientations observées en fonction du sexe des individus
À vue d’œil, les orientations ne semblent pas réparties uniformément en fonction du sexe des
individus : la modalité Est est très majoritaire chez les hommes et quasiment inexistante chez les
femmes, tandis que les modalités Ouest et Sud sont très présentes chez les femmes et rarement
chez les hommes. Une différence assez claire semble donc exister.
Appliquer un test du χ2 permettra de savoir si les différences observées dans les répartitions
sont « significatives », c’est-à-dire si elles relèvent d’une vraie différence de traitement en fonction
du sexe de l’individu et ne sont pas attribuables au seul hasard d’échantillonnage.
Remarque (importante). — Si la totalité des tombes des deux sites a été fouillée et que l’orientation
a pu être notée pour chaque individu, la question précédente n’a tout simplement pas de sens !
En effet, on travaille alors sur population complète : on a simplement procédé au recensement des
orientations de tous les individus enterrés. Par conséquent, la question de la « significativité » des
différences observées ne se pose même pas ! Appliquer un test de χ2 n’a ici de sens que si l’on n’a pu
observer qu’un petit échantillon de tombes (car certaines étaient trop mal conservées pour pouvoir
noter quoique ce soit sur l’orientation des individus qui y ont été inhumés, par exemple) et que
l’on se pose la question de l’identité des distributions sur la population complète, inobservable 21 .
20. Dans les faits, cela importe peu : les deux variables jouent évidemment un rôle symétrique.
21. La même remarque s’applique bien tendu à tous les tests précédemment menés dans ce document.
30
Statistique inférentielle
Le test du χ2 oppose l’hypothèse nulle « H0 : les deux variables sexe et orientation sont
indépendantes » à l’hypothèse alternative « H1 : les deux variables sexe et orientation sont liées ».
La mécanique du test du χ2 est la suivante : dans un premier de temps, sont déterminés les
effectifs théoriques que l’on devrait observer sous l’hypothèse d’indépendance (notons Oij l’effectif
observé et Eij l’effectif théorique attendu pour la case pi, j q du tableau). Ensuite, est calculée la
quantité
¸ pOij Eij q2
K
Eij
i,j
qui correspond à un écart normalisé entre la situation théorique d’indépendance et la situation
réellement observée. Plus cette quantité est élevée, plus on est loin de la situation d’indépendance.
Comme d’habitude, on ne peut se contenter de dire arbitrairement si K est « grand » ou « petit »,
et on se sert du résultat suivant :
Théorème 6. — Sous l’hypothèse d’indépendance des deux variables, la quantité K suit une loi
de Pearson à pI 1q pJ 1q degrés de liberté, où I est le nombre de lignes du tableau et J le
nombre de colonnes (I et J sont donc respectivement le nombre de modalités de la première et de
la seconde variable).
On peut alors déterminer un nombre k1α tel que l’intervalle r0, k1α s soit de probabilité p1 αq
pour la loi de Pearson à pI 1q pJ 1q degrés de liberté (cf. aussi figure 13). Par conséquent, le
test de niveau α consiste simplement à voir si K est une valeur comprise ou non dans cet intervalle.
Figure 13 – Loi de Pearson, et règle de décision pour le test : si K tombe dans la zone hachurée
on rejette H0 , sinon on la conserve.
Comme précédemment, on prendra α 0.05, et ainsi, dans la pratique :
— si la p-valeur renvoyée par le logiciel utilisé est inférieure à 0.05, alors l’hypothèse d’indépendance est rejetée : il existe une liaison claire entre les deux variables (ici, cela signifie
que femmes et hommes ne sont pas orientés de la même façon lors de leur enterrement) ;
— si p ¡ 0.05, on ne rejette pas l’hypothèse d’indépendance : on considère alors que les différences observées peuvent simplement être dues au hasard d’échantillonnage, et ne constituent pas une tendance suffisamment significative pour établir l’existence d’une stratégie
d’inhumation différente pour les deux sexes.
Exercice 19 (Test du χ2 avec R). — Appliquer un test du χ2 sur la table 2 afin d’étudier la liaison
entre la variable Sexe et la variable Orientation . Pour cela, utiliser le menu Statistiques >
Tables de contingence > Tri croisé, puis sélectionner les deux variables voulues. Cocher la
case Test du Chi-deux d’indépendance. Observer la p-valeur : la différence des orientations en
fonction du sexe des individus est-elle significative ?
Remarque. — Le test du χ2 possède des conditions d’utilisation strictes, et exige notamment que
chaque case pi, j q du tableau ait un effectif théorique Eij au moins égal à 5. Dans la pratique,
15 octobre 2015
31
toutefois, on calcule rarement les effectifs théoriques... Une règle grossière sera de se contenter de
dire que si les effectifs observés sont trop faibles dans certaines cases du tableau de contingence, le
test ne doit pas être appliqué. On peut alors ou bien regrouper entre elles des modalités, ou tout
simplement choisir un autre test avec des règles d’utilisation moins strictes, comme le test exact
de Fisher (cf. Wikipedia, par exemple). Ici, nous n’avions théoriquement pas le droit d’appliquer
un test du χ2 sur notre table 2. On va donc oublier ce résultat illicite, et utiliser un autre test.
Exercice 20 (Test exact de Fisher avec R). — Recommencer à l’identique les manipulations de
l’exercice précédent, mais en cochant cette fois la case Test exact de Fisher. Conclure.
Annexe : quel test statistique choisir ?
Seul un (très) petit nombre de tests statistiques a été évoqué dans ce document, ne permettant
de surcroît de répondre qu’à des problématiques très élémentaires.
Le site http://marne.u707.jussieu.fr/biostatgv/?module=tests pourra aider à découvrir
de nouveaux tests statistiques adaptés à des problématiques plus complexes, et éventuellement à
les réaliser directement en ligne.
On prendra toujours garde, néanmoins, au fait que les tests statistiques ne doivent pas devenir
une quasi-religion : il n’est nullement impératif de procéder à des tests, tout dépend de vos données
et des questions précises que vous vous posez. Il est nécessaire de se souvenir qu’un test statistique
est une procédure décisionnelle destinée à trancher entre deux hypothèses préalablement formulées
par l’expérimentateur : on ne procède pas à des tests par brouettes entières « pour le plaisir »,
sans questions ciblées ni correctement formulées.
La théorie des tests ne constitue de surcroit qu’une petite partie de tout l’éventail des méthodes
statistiques : dans de nombreux cas en sciences du passé, de simples méthodes exploratoires multivariées (ACP, AFC, ACM, CAH, ...) seront bien plus utiles pour produire des commentaires
intéressants sur un jeu de données [HLP09].
Références
[AB06]
[C 12]
[DRV99]
[Fro07]
[GDM11]
[HH05]
[HJ08]
[HLP09]
[LDL14]
[MBB14]
[Pag10]
J.-M. Azaïs et J.-M. Bardet : Le modèle linéaire par l’exemple. Dunod, 2006.
P.-A. Cornillon et al. : Statistiques avec R. Presses Universitaires de Rennes, 3e
édition, 2012.
J.-J. Daudin, S. Robin et C. Vuillet : Statistique inférentielle : idées, démarches et
exemples. Presses Universitaires de Rennes, 1999.
S. Frontier : Statistiques pour les sciences de la vie et de l’environnement. Dunod,
2007.
F. Grosjean, J.-Y. Dommergues et G. Macagno : La Statistique en clair. Ellipses,
2011.
Ø. Hammer et D. A. T. Harper : Paleontological Data Analysis. Wiley-Blackwell,
2005.
A. Hamon et N. Jégou : Statistique descriptive. Presses universitaires de Rennes,
2008.
F. Husson, S. Lê et J. Pagès : Analyse de données avec R. Presses universitaires de
Rennes, 2009.
P. Lafaye de Micheaux, R. Drouilhet et B. Liquet : Le logiciel R : Maîtriser le
langage, effectuer des analyses statistiques. Springer-Verlag, 2e édition, 2014.
M. Maumy-Bertrand et F. Bertrand : Initiation à la statistique avec R. Dunod,
2e édition, 2014.
J. Pagès : Statistiques générales pour utilisateurs. Presses Universitaires de Rennes, 2e
édition, 2010.
Téléchargement