Théorème 1 - Mathématiques | Académie de Dijon

publicité
Statistiques et probabilités au lycée
« Le loto, c'est un impôt sur les gens qui ne comprennent pas les statistiques. » (Anonyme)
I – INTRODUCTION
1. Un apprentissage dans la continuité
Quelques éléments de statistique descriptive ont été introduits au collège, une initiation au
calcul des probabilités a été menée en classe de 3ème depuis la rentrée 2008. Le programme de
classe de 2nde s’inscrit dans la continuité de ce travail pour ce qui est du contenu. Le tableau synoptique suivant résume l’évolution des connaissances.
Organisation
et gestion de
données
Classe de 6ème
Organiser des données en
choisissant un mode de
représentation adapté.
Lire et interpréter des informations à partir d’une
représentation graphique.
Représentations usuelles :
tableaux, diagrammes en
bâtons, circulaire, …,
cartésien.
Classe de 5ème
Classes, effectifs, fréquences.
Tableaux de données :
lecture,
interprétations,
élaboration,
représentations graphiques.
Diagrammes,
histogrammes.
Classe de 4ème
Moyenne pondérée.
Classe de 3ème
Caractéristiques de position : médiane, quartiles.
Approche des caractéristiques de dispersion : étendue.
Notion de probabilité.
Le programme de Seconde ne va guère plus loin sur les notions nouvelles dans ce qui est désormais désigné par « analyse des données », en institutionnalisant la connaissance des caractéristiques de position et de dispersion (moyenne, médiane, quartiles).
Il introduit cependant un nouveau champ de réflexion conceptuelle sur les données, avec une approche de l’échantillonnage statistique. Cette approche avait déjà été initiée de façon qualitative
avec le programme de 2000, nous allons plus loin dans ce domaine avec la mise en évidence
d’éléments chiffrés de la fluctuation (notion d’intervalle de fluctuation au seuil de 95%).
Enfin, le programme de 2009, introduit les premiers éléments du calcul de probabilité, ce qui
est une première en classe de seconde ! Le recours à la simulation d’expériences aléatoires renforce et crédibilise le lien avec les statistiques, beaucoup plus que dans le programme précédent
où ces simulations étaient souvent négligées dans les pratiques, faute peut-être de trouver un ancrage suffisant avec les autres domaines étudiés.
2. Regard sur les objectifs du programme de Seconde
Ces objectifs, relativement ambitieux, sont clairement résumés dans le libellé du programme :
« Objectifs visés par l’enseignement des statistiques et probabilités à l’occasion de résolutions
de problèmes
 dans le cadre de l’analyse de données, rendre les élèves capables :
 de déterminer et interpréter des résumés d’une série statistique ;
 de réaliser la comparaison de deux séries statistiques à l’aide d’indicateurs de position et
de dispersion, ou de la courbe des fréquences cumulées ;
 dans le cadre de l’échantillonnage :
 faire réfléchir les élèves à la conception et la mise en œuvre d’une simulation ;
 sensibiliser les élèves à la fluctuation d’échantillonnage, aux notions d’intervalle de fluctuation et d’intervalle de confiance et à l’utilisation qui peut en être faite. »
3. Commentaires
Les objectifs affichés s’articulent autour de la statistique purement descriptive (ou : analyse
des données), qui utilise des outils mathématiques issus de la géométrie et de l’analyse, et des
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 1
Robert FERACHOGLOU
liens entre la statistique et les phénomènes aléatoires : l’étude de ces phénomènes se fonde sur la
notion de probabilité, comprise comme une valeur idéale de fréquence, et dont la théorie explique certains phénomènes constatés (la fluctuation d’échantillonnage) mais aussi donne un
cadre théorique rigoureux pour, à partir de ces données statistiques, formuler une prévision ou
prendre un décision. Ce deuxième aspect est plus complexe, car il met l’accent sur l’imbrication
entre statistiques et probabilités ; les statistiques permettent d’accepter ou de réfuter un modèle
théorique, les probabilités expliquent les écarts statistiques constatés et donnent des garde-fous
pour la statistique inférentielle, c’est-à-dire la statistique de la prévision ou de la décision.
Cette articulation entre statistiques et probabilités n’est pas un artifice, elle correspond à un
cheminement historique et épistémologique conjoint dans le développement de ces deux disciplines. Dans le bagage culturel du futur « citoyen », l’enjeu avéré du programme est de donner à
chacun un jugement le plus sain possible sur l’information chiffrée, avec l’appui d’un « bon sens
de l’aléatoire ». C’est un objectif ambitieux, d’autant plus que la France affiche un triste retard
en la matière, notamment par rapport aux pays anglo-saxons ; le retard est culturel, les perles
journalistiques relatives aux sondages et à leur interprétation, le flou affiché dans la « confiance » des bulletins météo, en sont quelques traces visibles ; le retard est également visible
dans l’enseignement où, non seulement on a dressé au fil des années un rideau de fer entre statistiques et probabilités (les incitations fortes des différents programmes, et notamment celui de
2000, ont peu infléchi les pratiques), mais encore on a établi une hiérarchie de fait entre ces deux
disciplines, au détriment des statistiques trop souvent considérées comme des mathématiques au
rabais. Les statistiques restent trop souvent dans la société un amas de chiffres obscurs que l’on
peut manipuler de façon machiavélique – ce qui n’est pas toujours faux – pour rendre opaque une
vérité ou la déformer. Les citations abondent dans ce sens ; en voici trois :
« Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques. »
(Mark Twain)
« La statistique est la première des sciences inexactes. » (Jules de Goncourt)
« Faites attention, la statistique est toujours la troisième forme du mensonge. » (Jacques Chirac)
Chacun pourra tester son propre sens de l’aléatoire dans l’exemple qui suit. On a consigné ci après
quatre séries de 100 chiffres 0 ou 1, dont une seule a été obtenue de façon aléatoire. Il s’agit de déterminer laquelle.
Série 1
1
1
1
1
1
1
1
0
1
0
1
1
1
1
1
1
1
1
1
0
1
1
1
0
0
1
0
1
1
1
1
1
1
0
1
0
1
1
1
1
1
1
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
0
0
1
1
1
1
Série 2
0
1
1
1
0
1
1
1
1
1
1
1
1
1
1
0
1
1
0
1
1
1
1
1
1
1
1
1
0
1
0
1
1
0
1
1
0
0
1
0
1
1
1
1
0
0
0
0
0
1
0
0
0
1
0
1
1
1
0
1
1
1
1
1
1
0
0
0
0
0
1
0
1
0
1
0
1
0
1
0
1
1
0
1
0
0
0
1
0
1
0
1
1
0
0
1
0
0
1
0
Série 3
1
0
1
0
1
0
1
0
1
0
0
0
0
0
1
1
1
1
1
0
0
0
1
1
0
1
1
0
0
1
1
0
1
1
1
0
0
1
0
0
1
1
0
1
1
1
1
0
1
1
0
0
1
1
0
0
0
1
1
0
0
1
1
0
0
0
1
0
0
1
1
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
1
0
1
0
0
0
Série 4
1
1
1
1
0
1
1
1
1
1
0
0
0
0
1
1
0
1
1
1
1
1
0
1
0
0
1
1
1
0
1
0
1
1
1
0
0
1
0
0
1
1
0
1
1
1
1
0
1
1
0
0
1
1
0
0
0
1
1
0
0
1
1
0
0
0
1
0
0
1
1
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
1
0
1
0
0
0
1
1
1
1
0
1
1
1
1
1
0
0
0
0
1
1
0
1
1
1
1
1
0
1
0
0
1
1
1
0
Nombre de 0 :
Nombre de 1 :
18
82
Nombre de 0 :
Nombre de 1 :
51
49
Nombre de 0 :
Nombre de 1 :
48
52
Nombre de 0 :
Nombre de 1 :
42
58
Nombre de blocs
25
Nombre de blocs
62
Nombre de blocs
66
Nombre de blocs
53
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 2
Robert FERACHOGLOU
Commentaires
La première idée est de regarder la fréquence d’apparition des chiffres, ce qui permet d’éliminer la
première série, qui comporte trop de 1. Le nombre de 1 est en effet une variable aléatoire qui suit
une loi binomiale de paramètres 100 et 0,5 ; sa moyenne est m  50 et son écart-type   5 . Sa loi
est proche d’une loi normale ayant les mêmes paramètres, pour laquelle environ 95 % des échantillons aléatoires sont contenus dans l’intervalle  m  2 , m  2  , c’est-à-dire [40, 60]. Au seuil de
95%, on peut donc réfuter le caractère aléatoire de la série 1, et accepter celui des séries 2, 3, 4.
On peut également considérer le nombre de blocs, c'est-à-dire de suite de termes analogues dans
chacune des séries. Formellement, si X1 , …, X 100 sont les 100 variables de Bernoulli donnant la valeur des 100 chiffres, cela consiste à introduire comme compteurs de blocs les variables
(Yi )1i 100 ainsi définies :
Y1  1 et pour 2  i  100 , Yi  1 si X i  X i 1 et Yi  0 si X i  X i 1 .
100
Alors S   Yi représente le nombre total de blocs.
i 1
On a E (Y1 )  1 et pour 2  i  100 , E (Yi ) 
1
, donc E ( S )  1  99  0,5  50,5 ; c’est le nombre
2
moyen de blocs.
De plus, V (Y1 )  0
et pour
2  i  100 , V (Yi ) 
1
et les Yi
4
sont indépendantes, donc
V ( S )  99  0, 25  24, 75 . Cela fournit :  ( S )  5 .
Pour environ 95% des échantillons aléatoires, le nombre de blocs est donc compris entre 40,5 et
60,5, ce qui permet de réfuter le caractère aléatoire des séries 2 et 3 : elles ont trop de blocs pour être
obtenues par hasard. (En fait, ces séries ne comportent pas de séries de chiffres consécutifs de longueur supérieure à 3 : c’est également extrêmement rare.)
II – LA STATISTIQUE DESCRIPTIVE
1. Appréhender une série statistique
Une série statistique livre un ensemble de données brutes. Lorsqu’elles sont nombreuses, ces
données demandent d’être résumées pour en tirer un enseignement. Les graphiques et les paramètres constituent les principaux résumés, visuels et numériques. Deux points sont essentiels
dans la formation des élèves :
 s’habituer à poser des questions a priori, comme par exemple : « quel résumé semble le
plus pertinent pour une étude donnée ? », « quels paramètres sont intéressants à calculer ? » ;
 s’entraîner à comprendre et interpréter les résumés, qu’ils soient visuels ou numériques,
et les exploiter pour en tirer un élément de réponse.
Le programme insiste sur la nécessité de travailler le plus souvent possible sur des données réelles ; la mise à disposition de fichiers numériques permettra un travail sur ordinateur, d’autant
plus justifié que ces données seront nombreuses et complexes. Le document ressource préconise
le recours à quelques fichiers qui serviront de fil rouge. Par exemple le fichier de l’INSEE sur les
36723 communes françaises, disponible sur le site http://www.insee.fr/fr/ppp/bases-dedonnees/recensement/populations-legales/france-departements.asp, permet de mener des travaux
intéressants sur des exemples de représentations graphiques, des tris, des calculs de fréquences,
des calculs de paramètres et leur interprétation, des comparaisons de populations, d’étudier les
effets de différents regroupements, d’utiliser le cumul des fréquences, de prélever des échantil-
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 3
Robert FERACHOGLOU
lons, d’observer la fluctuation d’échantillonnage, de découvrir la loi de Benford, d’introduire les
rudiments du calcul des probabilités, ….
2. Résumer une série statistique
a) Position du problème
Une série statistique numérique offre un premier résumé visuel naturel tel que l’histogramme
(ou le diagramme en bâton, en barres, …). Ce graphique pose la question de trouver un résumé numérique adéquat, à l’aide de paramètres chiffrés traduisant trois notions visuelles :
- la tendance centrale (centre de gravité, valeur « sommitale », valeurs de partage) ;
- la dispersion des données ;
- la forme du graphique (aplatissement, asymétrie).
Seules les deux premières notions sont envisagées au lycée ; il n’est pas inintéressant pour un
professeur d’en étudier un aspect théorique, qui ne sera pas présenté aux élèves.
b) Lien théorique entre tendance centrale et dispersion
On identifie la série statistique x1 , …, xn au vecteur x ( x1 , ..., xn ) d’un espace euclidien de
dimension n, identifié à n .
Une valeur centrale est par définition une constante c telle que le vecteur constant
c  (c, c,...; c) est proche de x , au sens suivant : la distance entre x et c doit être minimale.
La valeur de cette distance minimale est, toujours par définition, la dispersion associée à la
valeur c.
On peut envisager cela avec quelques distances classiques dans n :
1
D ( x , y ) 
Max xi  yi ;
 d ( x, y)  Max xi  yi ;
1i  n
n 1i  n
1
 d1 ( x, y)   xi  yi ;
D1 ( x , y ) 
 xi  yi ;
n 1i n
1i  n
1


2
d 2 ( x , y )    ( xi  yi ) 2 
 1i  n

dienne) ;
1
D2 ( x , y )  
n
1
1
2
( xi  yi )  (d2 est la distance eucli
1i  n

2
1

p
1
p
Dp ( x, y)  
( xi  yi ) p  pour p entier, p  1 .
 d p ( x , y )    ( xi  yi ) p 

 1i  n

 n 1i  n

Les trois résultats suivants donnent le paramètre de tendance centrale et la dispersion associée, relativement à trois de ces distances, parmi les plus classiques.
Théorème 1
d ( x, c ) est minimal lorsque c est égal à la moyenne des valeurs extrêmes de la série. La
valeur de ce minimum est la demi-étendue de la série.
La démonstration est immédiate.
Théorème 2
D1 ( x, c ) est minimal lorsque c est égal à la médiane Me de la série. La valeur de ce minimum est l’écart moyen à la médiane (EMM).
La démonstration du premier résultat peur être conduite en cycle terminal de la série S pour
une série ayant 3 ou 4 valeurs, admise pour les séries d’ordre supérieur.
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 4
Robert FERACHOGLOU
Théorème 3
D2 ( x, c ) est minimal lorsque c est égal à la moyenne x de la série.
La valeur de cette distance euclidienne minimale est l’écart-type de la série.
Ce résultat, hors de portée des élèves de lycée, se justifie de deux façons :
- analytiquement, en étudiant le minimum de x
 ( x  xi )2 ;
1i  n
-
géométriquement, en remarquant que la distance euclidienne dérive d’un produit scalaire, et que la distance minimale de x à la droite vectorielle engendrée par c , qui est
aussi engendrée par le vecteur u (1,...,1) , est minimale pour le projeté orthogonal sur
cette droite vectorielle. Ainsi c doit être le projeté orthogonal de x sur u ; il est calculé par les conditions : c (c,..., c) et c . x  c . c .
cx1  ...  cxn  c .x  c .c  nc 2 .
On en tire :
x  ...  xn
c 1
 x (moyenne de la série).
D’où :
n
La dispersion associée est la distance minimale correspondante, soit :
1
1
2
D2 ( x , x )    ( xi  x ) 2   s (c’est l’écart-type de la série).
 n 1i  n

Ainsi, le couple (moyenne, écart-type) joue-t-il un rôle privilégié parmi les paramètres.
c) Que choisir en classe ?
L’aspect théorique précédent ne doit pas être soulevé en classe ; il a cependant le mérite
de montrer que les résumés numériques fonctionnent par deux : un paramètre de tendance
centrale et l’indicateur de dispersion qui lui mathématiquement associé. Il faut également retenir que les valeurs extrêmes de la série ainsi que le seul paramètre de dispersion qui est officiellement au programme de seconde, à savoir l’étendue, ne doivent pas être méprisés
même s’ils sont relativement grossiers : ils interviennent en liaison avec la distance d  . Ces
paramètres ont d’ailleurs une importance réelle dans les séries statistiques où intervient un sinistre, voire une catastrophe ; ainsi les plans d’occupation des sols doivent tenir compte des
hauteurs maximales des cours d’eau plutôt que de leur hauteur moyenne, les normes sismiques des bâtiments que l’on construit prennent la mesure des plus grandes magnitudes
constatées des séismes, etc.
D’autre part, il est important de montrer aux élèves que, pour une série numérique,
moyenne et médiane peuvent être très différentes, et de les entraîner à réfléchir à la pertinence du choix des paramètres. La moyenne est très usuelle, mais elle est peu robuste relativement à des valeurs extrêmes très élevées ; ainsi le salaire moyen en France est relativement
trompeur pour rendre compte du revenu des habitants. Les paramètres d’ordre et leur représentation (médiane, quartiles, déciles, boîtes de dispersion) sont souvent plus appropriés. De
plus ces paramètres donnent du sens à la fonction cumulative des fréquences, dont
l’équivalent probabiliste est la fonction de répartition d’une variable aléatoire.
III – DÉFINIR UNE LOI DE PROBABILITÉ
1. Expérience aléatoire et modélisation
a) Qu’est-ce que modéliser ?
Modéliser une expérience aléatoire, c’est définir les résultats possibles (appelés « résultats »
ou « issues » ou encore « événements élémentaires ») x1 , …, xn , que l’on supposera être en
nombre fini en classe de seconde, et leur affecter une suite de nombres p1 , …, pn tous positifs
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 5
Robert FERACHOGLOU
ou nuls et dont la somme est égale à 1. L’ensemble des issues   x1 ,..., xn  est l’univers, le
nombre pi est appelé probabilité de l’issue xi , le n-uplet ( p1 ,..., pn ) est la loi de probabilité associée aux n issues. Le mot probabilité a deux sens qu’il ne faut pas confondre, il désigne ici les
nombres affectés aux différentes issues, il va désigner aussi une application p qui à chaque événement A (au lycée, un événement désigne toute partie de  ; en théorie des probabilités, un
événement est une famille de parties appelée tribu qui vérifie certaines conditions de stabilité)
associe un nombre compris entre 0 et 1 : la somme des probabilités (au premier sens du terme)
des issues qui appartiennent à A.
La modélisation soulève quatre questions. Est-elle mathématiquement juste ? Est-elle
unique ? Dépend-elle objectivement d’une expérience aléatoire ? Est-elle satisfaisante par rapport à l’expérience ?
La justesse mathématique est garantie par les conditions imposées, même si la modélisation
n’est pas satisfaisante ; on peut en effet modéliser les six issues résultant du lancement d’un dé
1 1 1 1 1 1
équilibré en affectant les probabilités ,
,
,
,
,
aux différentes issues. Cela per2 10 10 10 10 10
mettra d’effectuer des calculs justes, mais sûrement pas satisfaisants relativement à l’expérience.
La modélisation n’est pas unique, comme on peut le voir en avec l’expérience consistant à
prélever trois boules dans une urne ; on peut considérer que les boules sont prises ensemble et se
ramener à des calculs de combinaison, ou les ordonner et raisonner en termes d’arrangements.
On sait bien que ces deux modélisations (à la fois justes et satisfaisantes) conduisent aux mêmes
résultats.
La question de l’objectivité a été le credo des mathématiciens jusqu’à la fin du XIX ème
siècle ; il a été ébranlé lorsque Emile BOREL a démonté le paradoxe de Bertrand décrit cidessous. On sait depuis lors que le fait de choisir au hasard n’induit aucune modélisation mathématique objective, et il faut préciser le protocole expérimental utilisé. Donnons-en trois
exemples ; le premier (il s’agit du paradoxe de Bertrand) est difficile, mais présente un grand intérêt historique ; les deux autres sont abordables en classe de seconde.
Exemple 1 : le paradoxe de Bertrand
Jusqu’à la fin du XIXe siècle, les mathématiciens avaient l’espoir que chaque « événement » résultant d’une expérience aléatoire ait une probabilité objective calculable. Cette croyance a volé
en éclat après la publication en 1889 par Joseph Bertrand d’un célèbre paradoxe qui a jeté un
grand trouble dans les esprits, et a ainsi rendu nécessaire une axiomatisation rigoureuse des probabilités.
On choisit une corde au hasard sur un cercle. Quelle est la probabilité p qu’elle soit plus longue
que le côté du triangle équilatéral inscrit dans le cercle (de centre O, de rayon r) ?
d

Première modélisation : une extrémité A de la corde est fixée, l’autre extrémité M est choisie au hasard sur la circonférence.
La corde répond à la question lorsque M est sur l’arc du cercle situé à droite
de la droite d. La longueur de cet arc est le tiers de la circonférence, donc :
1
p .
3
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 6
A
Robert FERACHOGLOU


A
Deuxième modélisation : le milieu I de la corde est choisi au hasard sur un diamètre [AB].
La corde répond à la question lorsque I est choisi sur un segment dont les extrémités sont situées au quart et aux trois quarts de [AB] ; la longueur de ce
1
segment est la moitié du diamètre, donc : p  .
2
B
Troisième modélisation : le milieu I de la corde est choisi au hasard dans le
disque. La longueur de la corde dépasse celle du côté d’un triangle équilatéral
inscrit lorsque I est situé à l’intérieur du disque concentrique de rayon moitié
(grisé sur la figure). L’aire de ce disque est égale au quart de celle du disque de
1
départ, donc : p  .
4
Exemple 2 : le problème des cases (Manuel de 1ère S, Collection Terracher, 2001)
On choisit au hasard une case blanche dans le damier ci-contre. Quelle est la
probabilité d’obtenir une case ayant le numéro 1 ? 2 ? 3 ? 4 ? 5 ?
1
2
On vérifie sans peine que les trois protocoles suivants ne donnent pas les mêmes
résultats :
3
4
 Protocole 1 : on choisit au hasard une case blanche parmi les cinq.
 Protocole 2 : on choisit au hasard une colonne parmi les trois, puis une case blanche dans la
colonne choisie.
 Protocole 3 : on choisit au hasard une ligne parmi les trois, puis une case blanche dans la
ligne choisie
Exemple 3 : le problème des bancs (Manuel de Terminale C et E, Analyse et probabilité, Collection Terracher, 1992)
Ce problème est repris sous un habillage à peine modifié dans le document d’accompagnement
du programme de seconde, page 8.
Dans une pièce se trouvent trois bancs de deux places chacun. Deux personnes entrent et
s’assoient au hasard. Quelle est la probabilité qu’elles s’assoient côte à côte ?
 Protocole 1 : on place dans une urne trois boules marquées A, B, C correspondant aux trois
bancs. La première personne choisit une boule au hasard, la remet dans l’urne, et va s’asseoir
au hasard sur l’une des deux places du banc indiqué. La deuxième personne procède de
même.
 Protocole 2 : on place dans une urne six boules marquées 1, 2, 3, 4, 5, 6 correspondant aux
six places. La première personne tire une boule au hasard et va s’asseoir à la place indiquée ;
la deuxième personne procède de même avec les cinq boules restantes
Il est aisé de calculer, par exemple en recourant à un arbre, que la probabilité cherchée est égale à
1
1
dans le premier cas, à dans le deuxième.
3
5
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 7
Robert FERACHOGLOU
5
b) Les modélisations satisfaisantes
Il existe plusieurs modélisations satisfaisantes d’une même expérience aléatoire. Par
exemple, lorsqu’on lance un dé équilibré, on peut définir l’univers {1, 2, 3, 4, 5, 6} avec
1 5
l’équiprobabilité des issues, ou l’univers {« six », « autres nombres »} avec la loi  ,  . Le
6 6
choix dépend des objets d’étude.
Qu’est-ce qu’une modélisation satisfaisante ? Du point de vue mathématique, la définition
d’une loi de probabilité ( p1 ,..., pn ) associée aux issues ( x1 ,..., xn ) est irréprochable dès lors que
les pi sont tous positifs et de somme égale à 1 ; elle permet de calculer les probabilités de
chaque événement. Ce n’est pas suffisant pour que le modèle soit en accord avec l’expérience
aléatoire. Une détermination satisfaisante des pi est difficile a priori sauf dans quelques cas particulier :
 lorsque l’on reconnaît une expérience déjà connue ;
 lorsque l’on a de bonnes raisons de postuler l’équiprobabilité des issues (tirage aléatoire
d’objets identiques, symétries d’un dé ;
 etc.
Dans tous les autres cas, et c’est une spécificité du calcul probabiliste, la vérification d’un modèle ne peut intervenir qu’a posteriori par la loi des grands nombres, que l’on peut énoncer de
façon qualitative en termes vulgarisés :
« Si le modèle est bon, lorsqu’on réalise un grand nombre de fois l’expérience aléatoire, la distribution des fréquences des différentes issues doivent se rapprocher des probabilités. »
Ainsi la réalisation effective d’une expérience aléatoire (ou une simulation satisfaisante) peut
donner une idée de la valeur des probabilités, et ce d’autant mieux que le nombre d’expériences
est grand, mais ne permet en aucun cas d’en déterminer les valeurs exactes ; par contre, les expériences répétées peuvent permettre de réfuter un modèle erroné.
2. Les lois des grands nombres
Il existe plusieurs versions de cette loi. Nous en donnons une version édulcorée, liant la fréquence de réalisation d’un événement et sa probabilité.
Dans une expérience aléatoire, on considère un événement A de probabilité p. Lorsqu’on réalise n fois de façon indépendante cette même expérience aléatoire, on considère la variable aléanombre de réalisations de A
toire Fn 
. Des valeurs statistiques fn de la variable Fn sont obten
nues chaque fois qu’on réalise effectivement n fois l’expérience : fn est la fréquence des occurrences de A sur n expériences. Les lois des grands nombres démontrent mathématiquement que
la suite ( Fn ) converge vers p en un certain sens :
- la loi faible (établie par Jacques Bernoulli, publiée en 1713 dans son ouvrage posthume
Ars conjectandi) énonce que pour tout   0 , la probabilité que Fn s’écarte de p de plus
de  tend vers 0 lorsque n tend vers  ; autrement dit :
  0 , lim{P  | Fn  p |   }  0 .
n
-
Une démonstration élémentaire s’appuie sur l’inégalité classique de BienayméTchebychev (si X est une variable aléatoire de moyenne finie m et d’écart-type fini  ,
1
alors pour tout h  0 , on a P  | X  m |  h    2 ).
h
la loi forte (plus puissante et plus difficile, conséquence des travaux réalisés au XXe
siècle par Emile Borel, Francesco Cantelli et Andreï Kolmogorov) précise que
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 8
Robert FERACHOGLOU
lim Fn  p pour presque toutes les expériences. Au sens de la théorie de la mesure, cela
n 
signifie que l’événement « lim Fn  p » a pour probabilité 1.
n 
Pratiquement cela assure dans presque tous les cas que la fréquence observée expérimentalement se rapproche d’une valeur théorique p. La modélisation devrait donc attribuer cette valeur
p à la probabilité. Cette conception, dite fréquentiste, offre l’avantage d’être cohérente avec
l’approche statistique.
3. L’approche fréquentiste en classe
Cette approche a dû être réalisée en classe de troisième. Il n’est peut-être pas inutile de la
compléter en seconde, à partir d’une expérience aléatoire simple à réaliser ou simuler.
Prenons le cas du lancer de dé, où l’on s’intéresse à la fréquence d’apparition du six. Il s’agit
d’observer la stabilisation des fréquences lorsque l’on augmente le nombre de lancer en traçant la
courbe d’évolution de la fréquence fn de l’issue choisie en fonction du nombre n de lancers. Un
tableur semble indispensable étant donné le grand nombre de lancers requis, et un fichier prêt à
servir est disponible sur le serveur académique. En observant l’évolution de la fréquence de sortie du six sur 3000 lancers, on a obtenu la courbe suivante, qui montre clairement une stabilisation.
Un autre type d’expérience peut être réalisé à la main pour conjecturer une probabilité inconnue. Un exemple classique consiste à lancer une punaise en métal qui peut tomber soit la pointe
sur la table (position A) soit la pointe en l’air (position B). En répartissant les expériences et les
calculs dans une classe, on peut observer à nouveau sur environ 600 lancers une relative stabilisation des fréquences.
IV – SIMULATION
1. Peut-on simuler une expérience aléatoire ?
On veut simuler une expérience aléatoire pour plusieurs raisons : parce que celle-ci est trop
difficile à réaliser, trop coûteuse ou trop fastidieuse (à cause du grand nombre de données), parce
qu’elle peut comporter une issue catastrophe, etc. La simulation est utile essentiellement pour
permettre certaines découvertes, conforter ou infirmer une hypothèse, etc. Le désir de confier
l’expérimentation à une simulation se heurte cependant à un obstacle de taille : on ne peut pas
simuler une expérience aléatoire, mais seulement une loi de probabilité connue. Cela signifie qu’une expérience aléatoire demande un minimum de modélisation avant d’être simulée ; ainsi, pour étudier l’attente de clients dans un dispositif comportant plusieurs sorties (guichets à la
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 9
Robert FERACHOGLOU
poste, caisses de supermarché, péages d’autoroute), on ne pourrait rien simuler sans postuler que
l’arrivée de chaque client suit une loi connue, décrite par un processus de Poisson (le nombre
d’arrivées dans un intervalle de temps donné suit une loi de Poisson, le temps entre deux arrivées
suit une loi exponentielle).
Ainsi la simulation ne permet pas de découverte ab nihilo, mais peut simplement faire conjecturer des paramètres liés à des lois complexes, en s’appuyant sur la simulation de lois élémentaires mieux connues. Par exemple, lorsqu’on lance n fois un dé ( n  2 ), on peut conjecturer à
l’aide d’une simulation une valeur approchée de certaines probabilités (relatives à la somme des
chiffres, au maximum, à l’obtention d’une série donnée …), à partir de la simulation de la loi
uniforme sur {1, 2, 3, 4, 5, 6} correspondant à chaque lancer, cette dernière étant parfaitement
connue.
2. Nombres aléatoires
a) Qu’est-ce qu’un nombre aléatoire ?
La simulation consiste à fabriquer à l’aide d’un programme de calcul une suite de
nombres x1 , …, xn , indépendants les uns des autres, où chaque nombre suit une loi de probabilité voulue. On peut obtenir de tels échantillons à partir d’un générateur de nombres aléatoires (procédé « Random » qui devrait fonctionner comme le tirage aléatoire d’un nombre
réel appartenant à l’intervalle [0 ; 1[), ou à partir d’une table de nombres aléatoires (tirage
aléatoire avec remise des chiffres 0, 1, …, 9). Le générateur permet en pratique d’obtenir une
table de nombres aléatoires, qui sont les décimales du nombre aléatoire.
La définition correcte d’un nombre aléatoire n’est pas simple ; écrit en base deux, les
chiffres 0 et 1 de ce nombre doivent se comporter comme les piles et faces obtenues lorsqu’on lance une infinité de fois au hasard une pièce de monnaie équilibrée ; écrit en base dix,
un tel nombre pourrait être défini par ses décimales comme si l’on tirait sans relâche et avec
remise dans une urne des boules marquées 0, 1, …, 9. Dans ce dernier cas :
 un nombre aléatoire est nécessairement irrationnel, car un rationnel, ayant ses décimales
périodiques, ne peut pas contenir certaines séquences dans la suite de ses décimales ;
 les chiffres 0, 1, …, 9 doivent être équiprobables, mais ce n’est pas suffisant car le
nombre 0,1234567890 1234567890 ... n’est pas équiprobable car la séquence 11 par
exemple n’apparaît jamais ; de tels nombres sont dits « équirépartis en base dix » ;
 les 100 séquences 00, …, 99 doivent se retrouver avec la même fréquence, ainsi que les
1000 séquences 000, …, 999, et plus généralement les 10n séquences 0…0, …, 9…9 (n
chiffres) doivent se retrouver avec la même fréquence 10  n . Les conditions très fortes
imposées à ces nombres (appelés « normaux en base dix ») font douter de leur existence ;
cette propriété de normalité a pourtant été prouvée pour certains d’entre eux, comme le
nombre de Champernowne 0, 1234567891011121314… (formé en juxtaposant la suite
des entiers naturels) ; on conjecture que les nombres e et  sont eux aussi normaux en
base dix, sans avoir pu le prouver. Cependant, les nombres normaux ne sont pas nécessairement aléatoires comme on peut le voir avec le nombre de Champernowne dont les décimales sont parfaitement déterminées et donc prévisibles ;
 d’autres nombres comme  ont des décimales sans régularité, mais ne sauraient être considérés comme des nombres aléatoires : on connaît très bien de courts programmes permettent d’obtenir les k premières décimales de  , ou même la k-ième sans passer par les
précédentes (algorithmes compte-gouttes).
Au cours du XXème siècle, de nombreuses tentatives pour définir un nombre aléatoire (ou
une suite de chiffres aléatoires) ont échoué, l’idée intuitive de désordre total dans les décimales étant difficile à décrire en termes de fréquences. La solution est apparue d’abord en
1965 avec le suédois Per MARTIN-LÖF, puis une dizaine d’années plus tard avec le russe
Andreï KOLMOGOROV et l’américain Gregory CHAITIN ; c’est la théorie de la complexité – liée au développement de l’informatique – qui en donne une définition satisfaisante : une
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 10
Robert FERACHOGLOU
suite de nombres est aléatoire si et seulement si elle est incompressible au sens informatique
du terme, c’est-à-dire grosso modo s’il n’existe pas de programme d’obtention des n premières décimales qui soit plus court … que d’en donner la liste ! On démontre qu’il existe de
tels nombres, qui sont toutefois difficiles à appréhender, de part même leur définition (voir
[9]).
Il faut donc renoncer à disposer de vrais nombres aléatoires, et l’on se contentera de générateurs qui fournissent des nombres pseudo-aléatoires, c’est-à-dire de nombres qui donnent
l’apparence du désordre (certains auteurs, comme Jean-Louis PIEDNOIR, qui a été inspecteur général de mathématiques, les nomment « nombres canada-dry », du nom de la célèbre
boisson qui présente toutes les apparences de l’alcool, mais qui n’est pas de l’alcool), ou tout
au moins de l’imprévisibilité, si l’on ne considère qu’une liste finie assez courte de décimales.
b) Obtention de nombres pseudo-aléatoires
Les méthodes les plus employées sont basées sur des suites récurrentes ; elles fournissent
donc des suites périodiques qui, en théorie, n’ont donc rien d’aléatoire. On s’arrange pour
que la période soit assez grande pour garder l’illusion du désordre.
Par exemple, dans la méthode multiplicative de Lehmer, on définit une suite d’entiers
(ri ) par : ri 1  ari  b (mod m) , où les entiers a, b, r0 bien choisis sont implémentés à la
création du processeur et m est le plus grand possible (sur ordinateur, on prend souvent
m  2 p 1 , où p est le nombre de bits d’un mot machine, c’est-à-dire 32 ou 64). On considère
r
alors que les nombres i forment une suite de nombres pseudo-aléatoires. (Voir [8].)
m 1
3. Simulation de quelques lois classiques
a) De quoi s’agit-il ?
Il s’agit de simuler toute loi de probabilité connue à partir d’un échantillon de nombres
pseudo-aléatoires. Théoriquement cela revient, si une variable aléatoire U suit la loi uniforme
sur [0 ; 1], à exprimer la loi d’une variable aléatoire donnée X en fonction de celle de U.
b) Loi équirépartie sur [[1 ; n]], l’ensemble des entiers compris entre 1 et n
Cette loi correspond au lancer aléatoire d’un « dé » à n faces ou au tirage au hasard dans
une urne contenant des boules marquées 1, …, n.
La variable X  E (nU )  1 suit la loi correspondante (E désignant la partie entière).
Cela signifie en pratique que si les ui sont des nombres pseudo-aléatoires, les nombres
xi  E (n  ui )  1 sont des entiers au hasard compris entre 1 et n.
c) Loi uniforme sur l’intervalle [a, b]
La variable X  (b  a )  U  a suit la loi uniforme sur l’intervalle [a, b].
d) Loi de Bernoulli de paramètre p, et loi binomiale
La variable X définie par : X  1 si U  p et X  0 si U  p suit la loi de Bernoulli de
paramètre p.
Si X1 , …, X n suivent la même loi de Bernoulli de paramètre p et sont indépendantes, alors
X  X1  ...  X n suit la loi binomiale de paramètres n et p. Cela permet aisément de simuler
une loi binomiale à partir d’un générateur aléatoire, que l’on itère n fois. Lorsque n est grand,
il est préférable de considérer que la loi binomiale est proche d’une loi normale (voir plus
loin).
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 11
Robert FERACHOGLOU
e) Cas d’une variable aléatoire continue
 Lorsque F, la fonction de répartition de X est continue et bijective, il est fréquent que
F 1 ait une forme analytique simple (fonction exponentielle, fonctions gammas, …).
Dans ce cas, l’égalité X  F 1 (U ) permet de simuler la variable X (c’est la méthode dite
« de l’anamorphose »).
 Lorsque X admet sur un intervalle [a, b] borné une densité f
qui est elle-même bornée dans [0, m], on se donne une va- m
riable U1 qui suit la loi uniforme sur [a, b], une variable
U 2 qui suit la loi uniforme sur [0, m]. Si U 2  U1 , on con- u2
serve U1 qui est une réalisation de X, sinon, on rejette U1 et
0
on recommence. (Méthode du rejet, voir [8]).
u1
a
f) Loi de Poisson de paramètre m
La méthode consiste à simuler un processus de Poisson (sans mémoire). Si X est une variable
aléatoire suivant la loi de Poisson de paramètre m, on prend X1 …, X n des lois exponentielles indépendantes de paramètre 1, alors l’événement ( X  n) est réalisé lorsque n est le
plus grand entier tel que X1  ...  X n  m .
X2
X1
0
E1
Xn+1
E2
En m
En+1
En pratique, cela signifie qu’à partir de nombres pseudo-aléatoires u1 , u2 , …, l’événement
( X  n) est réalisé lorsque n est le plus grand entier tel que
n
  ln u
i 1
i
 m ; cette condition
permet une simulation simple sur tableur.
g) Loi normale (ou de Laplace-Gauss)
Une méthode particulièrement simple repose sur le théorème de la limite centrée : si X1 , …,
X n sont des variables indépendantes ayant même loi d’espérance  et d’écart-type  , alors
X 1  ...  X n
X 
, la variable
converge en loi vers n(0, 1), la loi normale de
n
/ n
moyenne 0 et d’écart-type 1.
Ce résultat est en particulier valable pour des variables X1 , …, X n suivant la loi uniforme
sur [0, 1] (dont la moyenne est 1/2 et la variance 1/12), et on considère que l’approximation
est correcte à partir de n  12 (Voir [8]). Cela signifie que X 1  ...  X 12 a une loi proche de
en posant X 
n(6, 1). Donc la variable X  m   ( X1  ...  X12  6) a une loi proche de n(m,  ).
On peut donc simuler une variable normale X à partir de 12 nombres pseudo-aléatoires u1 ,
 12

…, u12 en considérant que ( X  x) lorsque x  m     ui  6  .
 i 1

V – LA FLUCTUATION D’ÉCHANTILLONNAGE
1. Echantillon statistique, échantillon probabiliste
Un échantillon statistique aléatoire de taille n est un n-uplet (x1, …, xn ) formé des résultats
d’un tirage aléatoire réalisé n fois dans un ensemble fini  appelé population.
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 12
Robert FERACHOGLOU
b
Nous nous limitons au cas où les tirages sont effectués avec remise (tirages non exhaustifs), ce
qui revient à supposer que les tirages sont mutuellement indépendants.
Exemples :
- lorsqu’on lance 100 fois une pièce, on obtient un échantillon de taille 100 de la population
{Pile, Face} ;
- lorsqu’on réalise un sondage portant sur 700 personnes vivant en France, on obtient un
échantillon de taille 700 de la population des gens vivant en France (63 000 000 d’individus
environ).
D’un point de vue théorique, chacune des valeurs xi peut être considérée comme la réalisation
d’une même variable aléatoire X définie sur . Les valeurs observées (x1, …, xn ) constituent
alors une réalisation du n-uple ( X1, …, Xn ), où les Xi sont n variables aléatoires indépendantes
et de même loi : celle de X. Le n-uple ( X1, …, Xn ) est un échantillon probabiliste de taille n
ayant pour variable mère la variable X.
La théorie de l’échantillonnage (voir § 3) étudie les propriétés du n-uple ( X1, …, Xn ) et des caractéristiques le résumant (les statistiques), comme par exemple : la moyenne X , la fréquence F
d’une valeur ou d’une modalité, le maximum, le minimum, l’étendue, les quantiles, …
On englobe sous la locution « fluctuation d’échantillonnage » le fait :
- d’observer qu’il existe des différences entre les diagrammes et les paramètres (fréquences,
moyennes, …) obtenus sur des échantillons statistiques distincts ;
- d’interpréter à l’aide de la théorie probabiliste de l’échantillonnage si ces différences sont
compatibles avec la nature aléatoire du tirage, ou si elles sont « significatives », c’est-à-dire
si elles remettent en cause ce caractère aléatoire. Le tout, bien sûr, étant entaché d’une certaine certitude (ou : avec une certaine probabilité).
« L'égalité des chances, c'est pour ceux qui ont de la chance. »
Cette citation du mathématicien et romancier Denis Guedj (Le théorème du perroquet), en
forme de boutade, doit illustrer le fait que l’égalité probabiliste des chances se retrouve rarement
dans une expérience réelle ; il faut espérer qu’elle n’a rien à voir avec une vérité sociale !
2. Observation qualitative
Le premier objectif en seconde est de sensibiliser les élèves à la notion de fluctuation. Il est
facile d’observer à l’aide d’une simulation sur tableur que, lorsqu’on lance 600 fois un dé, on
n’obtient le même nombre d’occurrences des six issues. Il n’est pas rare non plus d’observer certains écarts par rapport aux nombres théoriques de 100. Les graphiques suivants montrent
quelques exemples que l’on peut obtenus sur Excel.
On notera en particulier que sur les trois échantillons aléatoires qui sont représentés, on a obtenu
123 fois le « 2 » dans l’échantillon n°3, 118 fois le « 2 » et le « 3 » ainsi que 81 fois le « 1 » et le
« 5 » dans l’échantillon n°2.
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 13
Robert FERACHOGLOU
Ces fluctuations naturelles étant constatées, il est normal de s’interroger sur le caractère réellement aléatoire des données en quantifiant l’étendue « naturelle » de la fluctuation statistique.
C’est la théorie de l’échantillonnage qui en donne la garantie et les limites.
3. Quelques éléments de théorie de l’échantillonnage
a) Définitions usuelles
Un échantillon aléatoire de taille n est un n-uple ( X1 ,..., X n ) de variables aléatoires indépendantes définies sur le même espace probabilisé, qui ont toutes la même loi qu’une variable X appelée variable parente.
Lorsqu’on réalise n tirages sans remise dans une population, les valeurs statistiques observées
x1 ,..., xn peuvent être considérées de deux manières :
- ce sont n réalisations indépendantes de la variable parente X ;
- c’est une réalisation du n-uple ( X1 ,..., X n ) .
Une statistique T est une fonction mesurable de ces n variables aléatoires : T  f ( X1 ,..., X n ) .
C’est donc une nouvelle variable aléatoire qui s’exprime à l’aide de l’échantillon.
X  ...  X n
Quelques exemples de statistiques : M n  1
(appelée moyenne « empirique » de
n
l’échantillon), max( X 1 ,..., X n ) (maximum empirique), l’étendue, la médiane des Xi sont des sta1 n
 ( X i  M n )2 (variance empirique de l’échantillon).
n i 1
La théorie de l’échantillonnage étudie ces « statistiques » d’un point de vue probabiliste : leur
loi exacte (par une formule, si on parvient à la déterminer, ou alors par des tables), ou bien leur
loi asymptotique, à l’aide d’un théorème de convergence.
tistiques classiques, mais aussi S 2 
b) Rappel sur trois types de convergence d’une suite de variables aléatoires
 Convergence en probabilité
La suite (Xn) converge en probabilité vers la constante a si pour tous  et  ,
P( X n  a   )   .

Convergence presque sûre (ou convergence forte)


La suite (Xn) converge presque sûrement vers X si P(  / lim X n ( )  X ( ) )  0 .


n
Convergence en loi (ou convergence faible)
La suite (Xn) converge en loi vers la variable X de fonction de répartition F si la suite (Fn)
des fonctions de répartition des Xn converge simplement vers F, en tout point de continuité
de F.
Liens entre les différents types de convergence
Presque sûre
Probabilité
Loi
Pour la démonstration, on pourra se reporter à [7] ou [8].
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 14
Robert FERACHOGLOU
c) Distribution des moyennes empiriques et des fréquences empiriques
Soit ( X1 ,..., X n ) un échantillon aléatoire associé à la variable mère X, de moyenne  et
X  ...  X n
d’écart-type  . On note M n  1
la moyenne empirique de cet échantillon.
n
Théorème 1 : l’espérance et la variance de M n sont données par les relations :
E ( M n )   et V ( M n ) 
2
n
.
La première égalité est une conséquence immédiate de la linéarité de l’espérance.
Pour la deuxième :
1
1
V ( M n )  2 V ( X 1  ...  X n )  2 V ( X 1 )  ...  V ( X n )  d’après l’indépendance.
n
n
1
2
2
On en tire : V ( M n )  2  n  
.
n
n
Théorème 2 (lois des grands nombres)
La suite ( M n ) converge en probabilité vers  (loi faible), et converge presque sûrement vers
la variable constante égale à  (loi forte).
Théorème 3 (théorème de la limite centrée)
Mn  
La suite de terme général
converge en loi vers la variable normale centrée réduite
/ n
(qui a pour de moyenne 0 et pour écart-type 1. On la note n(0 ; 1).
Pour la démonstration de ces deux théorèmes, voir par exemple [8].
Cela entraîne que pour n grand, les lois de ces variables sont proches, ou encore que la loi

  
. En
M n est proche de celle de la loi normale n   ,
 , de moyenne  et d’écart-type
n
n

pratique, on considère que cette approximation est bonne pour n  25 et 0, 2  p  0,8 .
Dans le cas particulier où les Xi sont des variables de Bernoulli associées à un événement de
probabilité p, la variable Mn = Fn est la proportion empirique de réalisations de cet événement.
Le théorème 3 se traduit alors dans le résultat suivant.
Théorème 4 :
La suite de terme général
Fn  p
p(1  p) / n
converge en loi vers la variable normale centrée
réduite n(0 ; 1).

En d’autres termes, Fn  n  p,

p (1  p ) 
 , loi normale de moyenne p et d’écart-type
n

p(1  p)
.
n
Ce résultat est à la base de la quantification de la fluctuation d’échantillonnage (voir §4).
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 15
Robert FERACHOGLOU
Il est bon de retenir quelques caractéristiques essentielles de la loi normale centrée réduite
(voir graphique suivant).
f ( x) 
-5
-4
-3
1
2
-2
e

x2
2
-1
0
1
2
3
4
5
0,68
0,95
0,997
d) Variance empirique
On considère la variable S 2 
1 n
( X i  M n ) 2 (variance empirique de l’échantillon).

n i 1
1 n

Il est facile d’établir que S 2    X i 2   M n 2 , ce qui montre que S 2   2 presque sûren  i 1

ment.
Mentionnons encore le résultat suivant, qui est fort utile dans l’estimation d’un écart-type.
Théorème 5
L’espérance de S 2 est donnée par l’égalité : E ( S 2 ) 
n 1 2
 .
n
1 n

Démonstration : d’après l’égalité précédente, E ( S 2 )    E ( X i 2 )   E ( M n 2 ) , soit :
n  i 1

1
E ( S 2 )   n E ( X 2 )  E ( M n 2 )  E ( X 2 )  E ( M n 2 ) . (1)
n

1
1  n
Or E ( M n 2 )  2 E ( X1  ...  X n )2   2  E ( X i 2 )   E ( X i X j )  .
n
n  i 1
i j

2
Les X i étant indépendantes, on a E( X i X j )  E( X i ) E( X j )   ; on en tire :
E (M n ) 
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
1
1
n 1 2
 nE ( X 2 )  n(n  1)  2   E ( X 2 ) 
 . (2)
2 
n
n
n
Page 16
Robert FERACHOGLOU
n 1 2
 1
 .
D’après (1) et (2), il vient : E ( S 2 )  1    E ( X 2 )   2  , soit E ( S 2 ) 
n
 n
4. Quelques éléments quantitatifs de fluctuation
Lorsqu’on réalise une expérience aléatoire, il est naturel que les valeurs observées s’écartent
des valeurs théoriques, mais pas trop cependant. Il est important de chiffrer cet écart qui, s’il sort
des bornes « raisonnables » prévues par la théorie (on parle alors d’écart « significatif »), permet
de mettre en doute le caractère aléatoire de l’expérience. La théorie s’appuie sur deux types de
résultats ; l’un est modeste mais non méprisable, puisqu’il s’agit de l’inégalité de BienayméTchebychev ; les autres proviennent de la théorie de l’échantillonnage, et il s’agit essentiellement
des théorèmes de convergence (lois des grands nombre, théorème de la limite centrée, convergence vers la loi normale). Dans les deux cas, la fluctuation est soumise à deux paramètres qui
sont l’intervalle de fluctuation et la probabilité pour que les valeurs observés soient dans cet intervalle ; la difficulté essentielle est de comprendre (et de faire comprendre) cette dialectique
dans laquelle les deux paramètres sont antagonistes : ce que l’on gagne en rayon d’intervalle est
perdu en probabilité, c’est-à dire en certitude de tomber dans l’intervalle donné.
Par exemple, dans le jeu de pile ou face, on s’intéresse à la proportion de faces sur n lancers.
Pour chaque lancer, la probabilité est p  0,5 et l’écart-type   0,5  (1  0,5)  0,5 , donc la
variable aléatoire X n qui décompte le nombre de faces sur n lancers a pour moyenne 0, 5  n ,
n
n
, pour écart-type
. Ainsi la fréquence Fn des faces a pour moyenne 0,5 et
4
2
1
pour écart-type
.
2 n
L’inégalité de Bienaymé-Tchebychev prévoit que pour tout h  0 , la probabilité que Fn ne soit
pour variance
1
h
h 

pas contenu dans l’intervalle 0,5 
, 0,5 
 n’excède pas h 2 . Ainsi, pour h  2 , on
2 n
2 n

trouve qu’il y a au plus une chance sur 4 pour que Fn ne soit pas contenu dans l’intervalle
1
1 

, 0,5 
0,5 
 . Ce renseignement quantitatif est amélioré en certitude par le théorème de
n
n

1 

la limite centrée qui dit que ( Fn ) converge en loi vers n  0,5;
 . Une table de la loi normale
2 n

centrée réduite permet alors d’évaluer qu’il y a environ une chance sur 20 pour que Fn ne soit
1
1 

pas contenu dans l’intervalle 0,5 
, 0,5 
 . L’amélioration en certitude est considén
n

1
1 

, 0,5 
rable : on dit que l’intervalle 0,5 
 est l’intervalle de fluctuation de Fn avec la
n
n

certitude à 0,95 (on dit aussi : au seuil de 95 %).
Cela peut être vérifié expérimentalement, sur un grand nombre d’échantillons ; avec n  100 et
1600 échantillons, nous avons obtenu le graphique suivant sur Excel.
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 17
Robert FERACHOGLOU
On observe sur cette simulation que le pourcentage d’échantillons de taille 100 pour lesquels la
fréquence de faces est extérieure à l’intervalle de fluctuation [0,4 ; 0,6] est effectivement proche
de 5%.
Ce type de simulation peut être simplement montré aux élèves si l’on veut aller vite ; il n’est pas
inintéressant de le proposer en travail à la maison, car c’est un bon exercice très complet utilisant
le tableur, avec la fonction « random », le graphique, une instruction conditionnelle, une fonction
de décompte, …).
Plus généralement, pour un événement de probabilité p , la fréquence de réalisation Fn sur un
échantillon de taille n a pour moyenne p et pour écart-type
centrée affirme que
Fn  p
p (1  p )
n
p(1  p)
. Le théorème de la limite
n
converge en loi vers n(0 ; 1), donc la loi de Fn est proche de celle

p (1  p ) 
de la variable aléatoire gaussienne n  p ;
 ; cela impose en particulier que l’intervalle

n


de fluctuation au seuil de 95 % est proche d’un intervalle de centre p et de rayon
p(1  p)
1
. On supposera pour simplifier que 1,96  2 et l’on majore p (1  p ) par , ce
1,96
4
n
qui est classique lorsque 0  p  1 . En comptant large, on est ainsi assuré d’un intervalle de fluc-
1
1 

; p
tuation égal à  p 
 au seuil de 95%. Pratiquement, cette approximation est bonne
n
n

lorsque p n’est pas trop proche de 0 ou de 1 et n assez grand (le programme préconise les conditions 0, 2  p  0,8 et n  25 ).
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 18
Robert FERACHOGLOU
Voici trois intervalles de fluctuation classiques, donnés par la table de la loi normale.
Intervalle de fluctuation
Seuil
1
1 

; p
p

2 n
2 n

68 %
1
1 

; p
p

n
n

95%
3
3 

; p
p

2 n
2 n

99%
VI – LA STATISTIQUE INFÉRENTIELLE
1. Estimation de paramètres et prévision
a) Position du problème
Il s’agit d’estimer certains paramètres d’une population à partir des valeurs relevées sur un
échantillon statistique. Le cadre des sondages motive cette problématique : on veut par
exemple estimer le pourcentage de Français qui pensent ceci ou cela en interrogeant seulement 1000 personnes, ou encore donner le résultat de la présidentielle à 20 heures à partir de
seulement 30000 bulletins électoraux dépouillés. C’est la théorie de l’échantillonnage (voir
plus haut) qui donne un fondement solide à ces estimations. On se place toujours dans le
cadre d’échantillons aléatoires de taille n indépendants avec remise, analogues à des tirages
dans une urne avec remise. C’est le seul cadre qui donne des résultats permettant un contrôle
mathématique de la précision (notion de fourchette ou d’intervalle de confiance) et de la certitude (en terme de probabilité) ; ce n’est malheureusement pas le cas des sondages d’opinion
où le choix des sondés n’a aucun caractère aléatoire mais relève de choix empiriques propres
à l’institut de sondage, qui peuvent s’avérer justes ou erronés, mais sur lesquels on n’a aucun
contrôle mathématique de la précision ou de la certitude.
b) Estimation ponctuelle de certains paramètres
Un estimateur d’un paramètre est une variable aléatoire qui est censée approcher ce paramètre en un certain sens. La première qualité d’un estimateur est de converger (en loi,
presque sûrement) vers ce paramètre. Ainsi, avec les notations de V 3, les variables M n , Fn ,
S 2 sont des estimateurs des paramètres  , p,  2 , moyenne, proportion, et variance respective dans une population.
On a bien, d’après les résultats précédents : M n   , Fn  p et S 2   2 en loi (théorèmes
3 et 4).
Lorsque T est un estimateur du paramètre  , l’erreur d’estimation T   est une variable
aléatoire qui peut se décomposer ainsi :
T    T  E (T )  E (T )   .
fluctuation aléatoire de T
autour de sa moyenne
erreur systématique
L’erreur systématique E (T )   est appelée le biais de l’estimateur ; en pratique, on essaie
d’utiliser des estimateurs pour lesquels ce biais est nul, on les appelle estimateurs sans biais.
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 19
Robert FERACHOGLOU
D’après le théorème 1, on a E ( M n )   et par voie de conséquence E ( Fn )  p , donc M n et
Fn sont des estimateurs sans biais de  et p.
n 1 2
 , donc S 2 possède un biais ; c’est pourquoi l’on réPar contre (théorème 5), E ( S 2 ) 
n
n 2
S pour estimer  2 ; ce nouvel estimateur converge aussi en loi vers  2 et
fère choisir
n 1
il est sans biais.
En pratique, cela signifie que dans le cadre de l’échantillonnage (tirage aléatoire d’un échantillon de taille n indépendant avec remise), on peut estimer une moyenne  , une proportion
p, un écart-type  en mesurant la moyenne mn , la fréquence f n , l’écart-type sn de cet
échantillon, et en appliquant la règle de conduite suivante.
Valeur exacte du paramètre
dans la population

p
Valeur estimée à partir d’un
échantillon de taille n
mn
fn

n
sn
n 1
c) Estimation par intervalle de confiance
On peut se limiter ici à l’estimation d’une proportion, qui se rattache à la problématique des
sondages ; là-dessus, le futur citoyen mérite une sensibilisation quantitative, et ce d’autant
plus que l’inculture ambiante (celle des media, mais aussi celle de bien des politiques) ne facilite pas la réflexion sur ce type d’information chiffrée. On a vu que, d’après le théorème de
la limite centrée, si p est la proportion d’une modalité dans une population (par exemple, la
proportion des Français qui ont voté pour le candidat X à une élection) la fréquence f n du
1
1 

vote X se trouve dans l’intervalle  p 
; p
 dans 95% des échantillons aléatoires
n
n

1
1 
1
1 


avec remise de taille n. Or f n   p 
; p
; fn 
  p   fn 
.
n
n
n
n


Cela permet de dire que, parmi tous les échantillons de taille n, le nombre inconnu p appartient à 95% d’entre eux.
1
1 

L’intervalle  f n 
; fn 
 est la fourchette de confiance de p au seuil de 95%.
n
n

Remarques
 Pour être plus précis, on peut travailler avec une valeur estimée sans biais de l’écart-type,
1
n
ce qui revient à multiplier le nombre
par
(voir c) ; on obtient alors
n 1
n
1
1 

; fn 
l’intervalle  f n 
 , qui est celui considéré dans les classes de BTS. Il
n 1
n 1 

ne s’agit pas d’entrer dans ce raffinement en classe de seconde.

Il est intéressant d’observer comment varie le rayon de la fourchette en fonction de n. On
obtient les résultats suivants.
n
Rayon de la fourchette
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
100
10%
400
5%
900
3,3%
Page 20
1600
2,5%
2500
2%
10000
1%
40000
0,5%
Robert FERACHOGLOU

On peut en tirer plusieurs enseignements. Par rapport aux sondages d’opinion (qui rappelons-le portent en général sur 900 personnes environ, et ne sont pas effectués selon la méthode de l’échantillonnage aléatoire), la fourchette a une amplitude supérieure à 6%, ce
qui est rarement annoncé par les journalistes, et parfois passé sous silence par les instituts
de sondage eux-mêmes ; les élèves méritent d’être prévenus là-dessus. Par rapport aux
sondages « sortis des urnes » qui annoncent très tôt le résultat d’une élection, dans la mesure où l’échantillon prélevé est aléatoire (ce qui est rarement le cas), il est remarquable
que seulement 10000 bulletins dépouillés donnent une fourchette de  1% , et seulement
40000 donnent une fourchette de  0,5% ; c’est ainsi que l’on peut connaître avec une
excellente précision et une bonne certitude le résultat de l’élection présidentielle dès 20
heures le soir du deuxième tour. Ce résultat est d’autant plus remarquable qu’il est indépendant de la taille de la population, puisqu’il dépend seulement de la taille de
l’échantillon.
d) Où s’arrêter en seconde ?
En classe de seconde, l’objectif demeure très modeste ; il s’agit de sensibiliser les élèves à la
notion de sondage pour estimer une proportion, et aux deux « insatisfactions » qui sont inhérentes à ce travail : la première est liée à l’imprécision, avec la notion de fourchette, la deuxième à l’incertitude avec la notion de seuil de confiance. On pourra mener un travail de sondage à partir de données réelles, comme il est prescrit dans le document ressource [4].
2. Les tests et la décision
Les tests sont abordés dans les classes de techniciens supérieurs ; ce sont des processus techniques extrêmement codés qui ne seront pas abordés dans ce document. Ils s’inscrivent dans la
problématique de la prise de décision, à quoi les élèves de terminale S sont sensibilisés lorsqu’on
aborde l’adéquation à une loi de probabilité.
L’objectif en seconde est uniquement d’amener les élèves à un questionnement sur la prise de
décision, à partir de résultats statistiques sur un échantillon, et plus précisément à partir de la
connaissance d’un intervalle de fluctuation. C’est un premier contact avec la notion de preuve
statistique.
Le raisonnement est le suivant : pour apprécier si la fréquence observée f sur un échantillon de
taille n d’un événement de probabilité p est compatible avec le caractère aléatoire d’une expérience, on regarde si f appartient à l’intervalle de fluctuation au seuil de 95%, à savoir l’intervalle
1
1 

; p
p
 . Dans le cas contraire, on décide de réfuter le caractère aléatoire de cette exn
n

périence.
Un exemple intéressant est donné dans le document d’accompagnement du programme, à partir
des personnels de deux entreprises :
Entreprise A
Entreprise B
Hommes
57
1350 (54%)
Femmes
43
1150 (46 %)
Total
100
2500
Il s’agit d’observer et de décider si ces deux entreprises respectent la parité hommes-femmes. Au
premier examen, cette parité est mieux respectée dans l’entreprise B qui ne comporte que 54%
d’hommes au lieu de 57% dans l’entreprise A.
La détermination des intervalles de fluctuation statistique naturelle au seuil de 95% vont mieux
guider la décision :
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 21
Robert FERACHOGLOU
Effectif
Entreprise A
Entreprise B
100
2500
Intervalle de fluctuation au seuil de 95%
dans le cas d’une répartition aléatoire
[0,4 ; 0,6]
[0,48 ; 0,52]
Dans l’entreprise A, les proportions 0,57 et 0,43 appartiennent à l’intervalle donc on ne peut pas
rejeter le fait que la parité est respectée ; dans l’entreprise B, les proportions 0,46 et 0,54
n’appartiennent pas à l’intervalle, donc on décide que la parité n’est pas respectée (seulement 5%
des échantillons aléatoires sont situés à l’extérieur de l’intervalle).
D’autres exemples intéressants pourront être consultés dans [4], [5].
Bibliographie et sites du web
 [1] Site de l’INSEE : http://www.insee.fr/fr/ppp/bases-de-donnees/recensement/populationslegales/france-departements.asp

[2] Site de l’INED :
http://www.ined.fr/fichier/t_telechargement/18154/telechargement_fichier_fr_sd2006_t2_fm.xls

[3] Site de Meteo-France : http://www.meteociel.com/climatologie/climato.php

[4] Document ressource pour la classe de seconde en probabilités et statistiques

[5] Document ressource pour les LP en probabilités et statistiques :
http://www.ac-grenoble.fr/maths/docresseconde/Proba_stat_LP.doc

[6] Arthur ENGEL, Les certitudes du hasard, ALEAS Editeur

[7] J. BASS, Eléments de calcul des probabilités, MASSON ET Cie Editeurs

[8] Gilbert SAPORTA, Probabilités, Analyse des données et Statistique, Editions TECHNIP

[9] Jean-Paul DELAYE, Logique, informatique et paradoxes, Dossier spécial Pour la science,
Edition BELIN
L’articulation probabilités-statistiques
Journées de l’inspection - Octobre 2009
Page 22
Robert FERACHOGLOU
Téléchargement