Chapitre 1
Analyse statistique des données
1.1 Objectifs de l’analyse statistique, exemples
La plupart des études et des expériences, commerciales, industrielles, ou scientifiques,
produisent des données. Au cours de la dernière décennie, le volume total des données stockées
a considérablement augmenté, ainsi que les moyens informatiques permettant leur traitement.
Une prise de conscience s’opère sur la valeur potentielle de ces grandes masses de données,
aussi bien pour le secteur privé que pour le secteur public (par exemple, dans les domaines de
la santé publique ou de la gestion des risques industriels, sociétaux ou environnementaux).
L’objet des statistiques est d’extraire de ces données « de la valeur », autrement dit des
informations utiles. Le point de vue particulier des statistiques est de considérer ces données
comme la réalisation d’une expérience aléatoire. La modélisation mathématique de celle-
ci permet de conduire une analyse et un traitement adapté des données (le plus souvent
automatique) afin de répondre à des objectifs concrets comme l’apprentissage, le contrôle
de qualité, etc. La plupart de ces objectifs particuliers ont un point commun : il s’agit de
fournir des outils d’aide à la décision en milieu incertain, en extrayant l’information partielle
contenue dans les données à disposition de l’analyste. Dans la suite de ce cours, on utilisera
indifféremment les termes inférence,apprentissage,analyse statistique pour faire référence à
un processus automatisé d’extraction d’information à partir des données. Avant de formaliser
cette approche, donnons quelques exemples.
Exemple 1.1 (Nombre d’objets défectueux):
Considérons une grande population de Néléments, par exemple des objets manufacturés ou des
clients d’une entreprise, ou des patients exposés à une maladie. Un nombre inconnu de ces objets,
Nθ est défectueux (resp. est sur le point de résilier son contrat, c’est-à-dire de « churner », ou est
malade). Il est trop coûteux d’examiner individuellement chacun de ces objets. On s’intéresse à la
proportion de défauts θ. Pour obtenir une information sur θ, on tire sans remise un échantillon de
néléments parmi Net l’on observe le nombre Xd’éléments défectueux (resp. de churners, ou de
malades) dans cet échantillon. La description mathématique de cet exemple est simple.
Le nombre Xd’objets défectueux parmi les nobjets choisis au hasard est appelée “observation”.
L’observation prend donc ici des valeurs entières, positives. Pour n, N et θfixés, on calcule
facilement la loi Pθ:
1. Tout d’abord, Xne “peut pas” valoir plus que n, ni que Nθ (la quantité totale d’objets
défectueux). C’est à dire, avec probabilité 1,X≤min(n, Nθ).
4