2Généralités
Elle est aujourd’hui omniprésente dans tous les secteurs d’activité :
— sciences bio-médicales (études cas-témoins pour la détermination de facteurs de risque,
certification des médicaments génériques, statistique en génomique et génétique, ...) ;
— économie (modèles financiers, risques en assurance, ...) ;
— marketing (études de satisfaction clientèle, impact de campagnes publicitaires, ...) ;
— télécommunications (traitement du signal) ;
— physique et sciences de l’univers (dont la physique statistique est un domaine central) ;
— sciences humaines (modèles démographiques, sociologie quantitative, ...) ;
— sécurité sanitaire, sûreté de fonctionnement en milieu industriel (EDF, Airbus, ...) ;
— écologie et climatologie (rôle majeur dans l’étude du réchauffement climatique), etc.
§1.2. Statistique et informatique
Aujourd’hui, de nombreux logiciels de statistique performants permettent de mener des ana-
lyses poussées de manière rapide, même sur de gros volumes de données. Dans ce cours, seul le
logiciel Rsera utilisé. Voici cependant d’autres logiciels couramment employés :
— PAST : un logiciel gratuit spécialement destiné aux problématiques paléontologiques et
préhistoriques, associé à une épaisse et très pédagogique documentation [HH05] ;
— Gnumeric : un tableur libre et gratuit incluant de nombreuses fonctionnalités statistiques
avancées ;
— Statistica, logiciel payant propriétaire édité par StatSoft (déconseillé) ;
— Excel et son greffon XLStat, édités par Microsoft (déconseillé) ;
— SAS et SPSS, logiciels payants propriétaires, très utilisés dans l’industrie et le monde de la
finance, un peu moins dans le milieu de la recherche à cause de leur prix très élevé.
§1.3. Échantillonnage
On appelle population le groupe (a priori inaccessible dans sa totalité), ou encore le type, d’ob-
jets sur lequel porte notre étude. Un élément de la population est classiquement appelé individu,
voire parfois unité.
Mis à part le cas très particulier des recensements — étude sur population complète — une
étude statistique ne peut jamais être menée sur la totalité de la population, que ce soit pour des
raisons de coût ou simplement de faisabilité. Un échantillon est un sous-ensemble d’individus de la
population, réellement accessibles à l’expérimentateur — et dans le cas des études archéologiques,
cet échantillon est souvent très réduit.
Quelques exemples :
— dans une étude, la population peut par exemple être l’ensemble de tous les Néandertaliens,
l’ensemble de tous les statisticiens 2, ou les ampoules d’un certain type en sortie d’une
chaîne d’usine ;
— un individu sera alors un Néandertalien, un statisticien, ou une ampoule ;
— on ne peut hélas accéder à tous les Néandertaliens ayant existé, pas plus qu’on ne peut se
permettre d’étudier toutes les ampoules produites par une usine : une étude statistique ne
porte que sur un nombre restreint d’individus. L’échantillon, liste réeelle des objets entrant
en compte dans l’étude, peut donc être un ensemble de 12 squelettes néandertaliens, ou 20
statisticiens pris au hasard dans l’annuaire de la Société française de statistique, ou 100
ampoules capturées à l’issue de la chaîne de production.
Une étude statistique suit le schéma suivant :
1. Il s’agit avant tout de choisir et collecter un échantillon d’individus suffisamment repré-
sentatif de la population globale : c’est l’objet de la théorie des sondages — qui ne sera
pas étudiée ici, puisque l’archéologue ne peut évidemment maîtriser son échantillonnage :
il travaille avec ce qu’il trouve !
2. Les mauvais esprits pourront toujours se plaire à faire remarquer qu’il n’y a pas grande différence entre ces
deux populations.