1ère partie : Généralités

publicité
STATISTIQUE
INFERENTIELLE
STAGE ACADEMIQUE
LA REUNION
Isabelle ABOU
Professeure Formatrice
1
OBJECTIFS DU STAGE
• Poser les bases de la théorie de la
statistique inférentielle.
• En comprendre les enjeux, leur utilité, et
leur domaine d’intervention pour justifier
son introduction dans les programmes.
• Donner quelques exemples d’application en
classe.
Isabelle ABOU
2
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
PLAN DE L’EXPOSE
1ière PARTIE: GÉNÉRALITÉS
I.
INTRODUCTION
II.
SITUATIONS PROBLEMES
III.
LA STATISTIQUE INFERENTIELLE
IV.
LE PROGRAMME DE SECONDE
2ième PARTIE: LA THÉORIE
I.
LOI NORMALE
II.
THEORIE DE L’ECHANTILLONNAGE
III.
PRISE DE DECISION
IV.
THEORIE DE L’ESTIMATION
V.
ESTIMATION D’UNE PROPORTION
VI.
EVALUATION DE TRAVAUX AVEC TIC
3ième PARTIE: APPROFONDISSEMENT
I.
TESTS STATISTIQUES
II.
COMPLEMENTS
Isabelle ABOU
3
1ière PARTIE:
GÉNÉRALITÉS
Isabelle ABOU
4
I. INTRODUCTION
Isabelle ABOU
5
LES METHODES
STATISTIQUES
• Les méthodes statistiques sont utilisées dans
presque tous les secteurs.
• Parmi ses applications, citons
• - dans le domaine industriel: la fiabilité des
matériels, le contrôle de qualité, l’analyse des
résultats de mesure et leur planification, la
prévision, et
• - dans le domaine de l’économie et des sciences de
l’homme: les modèles économétriques, les
sondages, les enquêtes d’opinion, les études
quantitatives de marché.
Isabelle ABOU
6
LA DEMARCHE
STATISTIQUE
• Après le recueil de données, la
démarche statistique consiste à
traiter et interpréter les informations
recueillies.
• Elle comporte deux grands aspects:
l’aspect descriptif ou exploratoire et
l’aspect inférentiel ou décisionnel.
Isabelle ABOU
7
Statistique descriptive
Statistique mathématique
Etude du débit d’une rivière
pendant 50 ans.
Prévisions sur la hauteur des
crues pour la construction
d’un barrage.
Etude des caractéristiques de Contrôle de qualité.
pièces d’une chaine de
fabrication.
Etudes de données
économiques sur les dépenses
des ménages.
Prévoir l’évolution de la vente
d’un produit.
Isabelle ABOU
8
•
•
•
•
•
•
•
LA STATISTIQUE
EXPLORATOIRE
Son but est de synthétiser, résumer, structurer l’information
contenue dans les données.
Elle utilise pour cela des représentations de données sous
forme de tableaux, de graphiques, d’indicateurs numériques.
Connue sous le nom de statistique descriptive, elle s’est
enrichie de techniques de visualisation de données
multidimensionnelles, c’est l’analyse de données.
Son rôle est de mettre en évidence les propriétés de
l’échantillon et de suggérer des hypothèses.
Les principales méthodes :
- les méthodes de classification pour réduire la taille de
l’ensemble des individus en formant des groupes homogènes.
- les méthodes factorielles qui cherchent à réduire le nombre
de variables en les résumant à un petit nombre de
composantes, analyse des composantes principales pour les
variables numériques, analyse des correspondances pour les
variables qualitatives.
Isabelle ABOU
9
LA STATISTIQUE
INFERENTIELLE
• Son but est d’étendre les propriétés constatées
sur l’échantillon à la population tout entière et de
valider ou d’infirmer des hypothèses à priori ou
formulées après une phase exploratoire.
• Le calcul des probabilités y joue souvent un rôle
fondamental.
• Quelques exemples:
• - l’estimation d’une moyenne,
• - la vérification d’une hypothèse ou test,
• - la modélisation et la prévision statistique.
Isabelle ABOU
10
II. SITUATIONS
PROBLEMES
Isabelle ABOU
11
QUELQUES SITUATIONS
PROBLEMES
• Les exemples utilisés dans ce stage sont extraits de:
• documents ressources - pour la classe de secondeProbabilités et Statistiques• http://media.education.gouv.fr/file/Programmes/17/9
/Doc_ressource_proba-stats_109179.pdf
• documents ressources - pour la voie professionnelle
(lycée).
• http://www.acgrenoble.fr/maths/docresseconde/Proba_stat_LP.doc
• - manuels de BTS.
Isabelle ABOU
12
DEFAUTS DE PEINTURE
• Dans une usine automobile, on contrôle
les défauts de peinture de type
• « grains ponctuels sur le capot ».
• Lorsque le processus est sous contrôle,
• on a 20 % de ce type de défauts.
• Lors du contrôle aléatoire de 50
véhicules, on observe 26 % de défauts
• (13 sur 50).
• Faut-il s’inquiéter ?
Isabelle ABOU
13
RESPECT DE LA PARITE
• Deux entreprises A et B recrutent dans un
bassin d’emploi où il y a autant de femmes
que d’hommes, avec la contrainte du
respect de la parité.
• Dans l’entreprise A, il y a 100 employés
dont 43 femmes.
• Dans l’entreprise B, il y a 2500 employés
dont 1150 femmes.
• Quelle est l’entreprise qui respecte le
mieux la parité ?
Isabelle ABOU
14
TAUX ANORMAL DE
LEUCEMIES
•
•
•
•
•
•
•
•
Une petite ville des États-Unis a connu 9 cas de leucémie chez de jeunes
garçons en l’espace de 10 années.
Doit-on, comme l’ont alors affirmé les autorités, en accuser le hasard ?
Woburn est une petite ville industrielle du Massachusetts, au Nord-Est des
États-Unis.
Du milieu à la fin des années 1970, la communauté locale s’émeut d’un grand
nombre de leucémies infantiles survenant en particulier chez les garçons
dans certains quartiers de la ville.
Les familles se lancent alors dans l’exploration des causes et constatent la
présence de décharges et de friches industrielles ainsi que l’existence de
polluants.
Dans un premier temps, les experts gouvernementaux concluent qu’il n’y a
rien d’étrange.
Mais les familles s’obstinent et saisissent leurs propres experts.
Une étude statistique montre qu’il se passe sans doute quelque chose
« d’étrange ».
Isabelle ABOU
15
TABLEAU DE DONNEES
• Le tableau suivant résume les données
statistiques concernant les garçons de moins
de 15 ans, pour la période 1969-1979 (Source :
Massachusetts Department of Public Health).
Population des
garçons de
moins de 15
ans à Woburn
selon le
recensement
de 1970 : n
Nombre de cas
de leucémie
infantile
observés chez
les garçons à
Woburn entre
1969 et 1979
Fréquence des
leucémies aux
Etats-Unis
(garçons) : p
5 969
9
0,000 52
Isabelle ABOU
16
NAISSANCES
• Les données statistiques suivantes ont été
relevées :
• en 2000, dans le village de Xicun, en Chine, il est
né 20 enfants, parmi lesquels 16 garçons,
• dans la réserve indienne d’Aamjiwnaag, située au
Canada à proximité d’industries chimiques, il est
né entre 1999 et 2003, 132 enfants dont 46
garçons.
• Ces naissances sont-elles le seul fruit du hasard ?
Isabelle ABOU
17
CONTESTER UN
JUGEMENT
• En Novembre 1976 dans un comté du sud du
Texas, Rodrigo Partida était condamné à huit
ans de prison.
• Il attaqua ce jugement au motif que la
désignation des jurés de ce comté était
discriminante à l’égard des Américains d’origine
mexicaine.
• Alors que 79,1% de la population de ce comté
était d’origine mexicaine, sur les 870 personnes
convoqués pour être jurés lors d’une certaine
période de référence, il n’y eut que 339
personnes d’origine mexicaine.
Isabelle ABOU
18
CONSTESTER UN
JUJEMENT (suite)
•
•
•
1. Quelle est la fréquence des jurés d’origine
mexicaine observée dans ce comté du Texas ?
2. La simulation sur un tableur du
prélèvement d’échantillons aléatoires de taille
n = 870 dans une population où la fréquence
des habitants d’origine mexicaine est p =
0,791.
Les fréquences des habitants d’origine
mexicaine observées sur 100 échantillons
simulés sont représentées ci-dessous.
Isabelle ABOU
19
•
•
•
•
a) Calculer les bornes de l’intervalle [ p – 1 , p + 1 ].
n
n
(Arrondir à 10–²).
b) Quel est le pourcentage des simulations fournissant une
fréquence en dehors de l’intervalle précédent ?
3. Sur les simulations, est-il arrivé au hasard de
fournir une fréquence d’habitants d’origine mexicaine
comparable à celle des jurés d’origine mexicaine
observée dans ce comté du Texas ?
4. Comment expliquez-vous cette situation ?
Isabelle ABOU
20
SONDAGE
• Un candidat à une élection effectue un sondage
dans sa circonscription comportant 85842
électeurs : sur 1068 personnes interrogées, 550
déclarent vouloir voter pour ce candidat.
• Pour gagner les élections au premier tour, un
candidat doit obtenir 50% des voix.
• Le candidat affirme : « si les élections avaient eu
lieu le jour du sondage et si les réponses au
sondage étaient sincères, alors j’aurais été élu au
premier tour ».
• Qu’en pensez-vous ?
Isabelle ABOU
21
III.
LA STATISTIQUE
INFERENTIELLE
PROBLEMATIQUE
MODELISATION
Isabelle ABOU
22
STATISTIQUE INFERENTIELLE
et ECHANTILLONNAGE
• PROBLEMATIQUE:
• Etudier les caractéristiques d’une population de
grande taille, en vue d’en prévoir l’évolution.
• Une étude statistique portant sur tous les
éléments d’une population étant soit impossible
à réaliser car la taille de la population est trop
grande, ou étant trop onéreuse, il faut obtenir
des résultats fiables en se limitant à l’étude des
éléments ou unités d’un échantillon.
Isabelle ABOU
23
OBJECTIF DE
L’ECHANTILLONNAGE:
• Disposant d’observations sur un échantillon
de taille n, on désire en déduire des
propriétés de la population dont il est issu.
• On cherchera par exemple à estimer la
moyenne m d’une population à partir de la
moyenne xe d’un échantillon.
• Mais, comment déterminer l’échantillon de
la population que l’on va observer?
Isabelle ABOU
24
PROBLEMES LIES A
L’ECHANTILLONNAGE
• Cet échantillon doit donner des estimations non
biaisées des paramètres mais permettre, de plus,
d’évaluer la marge d’erreurs dues aux fluctuations
d’échantillonnage.
• L’échantillon doit être représentatif de la
population: il en résulte que chaque unité doit
avoir une probabilité non nulle d’être tirée, un tel
échantillon est qualifié d’aléatoire.
Isabelle ABOU
25
ECHANTILLON
REPRESENTATIF
• Il faut que l’échantillon ait été tiré selon des
règles destinées à en assurer la représentativité.
• Le mode de tirage le plus simple et le plus
important est l’échantillonnage aléatoire simple
correspondant à des tirages équiprobables et
indépendants les uns des autres.
• Dans ces conditions, les observations deviennent
des variables aléatoires, il convient donc d’en
chercher les lois de probabilité avant de tenter
d’extrapoler à la population.
Isabelle ABOU
26
EN CONCLUSION
• Toute démarche statistique consiste à:
• - prélever un échantillon représentatif de la
population par des techniques appropriées. Les
différentes méthodes utilisées relèvent de la
théorie de l’échantillonnage,
• - étudier les principales caractéristiques d’un
échantillon, issu d’une population dont on connaît la
loi de probabilité,
• - savoir réaliser des échantillons de variables
aléatoires pour vérifier des conclusions en utilisant
des techniques de simulation.
Isabelle ABOU
27
ETUDE SUR UN EXEMPLE
• On prélève n ampoules électriques dans une production, et
on mesure leur durée de fonctionnement.
• Si les caractéristiques de fabrication d’une ampoule à l’autre
n’ont pas varié, les différences entre les durées xi peuvent
être considérées comme des fluctuations de nature
aléatoire.
• Ceci justifie l’hypothèse fondamentale de la théorie de
l’échantillonnage: les valeurs observées xi sont des
réalisations d’une même v.a X appelée variable parente (ou
mère).
• Ceci suppose l’existence d’une variable aléatoire abstraite,
« la durée de vie d’une ampoule », de type donné, fabriquée
dans des conditions données.
Isabelle ABOU
28
MODELISATION
• On introduira le modèle suivant:
• à chaque individu tiré i, on associe une v.a Xi dont
on observe une seule réalisation xi.
• Dans l’exemple précédent, Xi est la durée de vie
de l’ampoule i, qui une fois l’expérience faite a pris
la valeur xi.
• L’hypothèse précédente revient à dire que les Xi
sont des v.a ayant toutes la même distribution,
celle de X.
• Pour des raisons de commodité, les Xi seront
supposées mutuellement indépendantes.
Isabelle ABOU
29
CADRE THEORIQUE
• Les valeurs observées (x1,x2,…,xn) sont n réalisations
indépendantes d’une v.a X mère, ou encore, une
réalisation unique du n-uple (X1,X2,…,Xn) où les Xi
sont n v.a indépendantes et de même loi que X.
• On appellera n-échantillon de la v.a X, le n-uple
(X1,X2,…,Xn) ainsi défini.
• La théorie de l’échantillonnage se propose d’étudier
les propriétés du n-uple (X1,X2,…,Xn), en particulier
quand n est élevé.
• Une statistique T est une v.a, fonction mesurable de
X1,X2,…,Xn : T = f(X1,X2,…,Xn).
Isabelle ABOU
30
IV. LE PROGRAMME
DE SECONDE
Isabelle ABOU
31
OBJECTIFS VISES DANS
L’ECHANTILLONNAGE
• Faire réfléchir les élèves à la conception
et la réalisation d’une simulation.
• Sensibiliser les élèves à la fluctuation
d’échantillonnage, aux notions d’intervalle
de fluctuation et d’intervalle de confiance,
et à l’utilisation qui peut en être faite.
Isabelle ABOU
32
ECHANTILLONNAGE
CONTENUS
CAPACITES ATTENDUES
Notion d’échantillon.
Concevoir, mettre en œuvre et
exploiter des simulations de
situations concrètes à l’aide du
tableur ou d’une calculatrice
Utiliser les fonctions logiques
d’un tableur.
Mettre en place des
instructions conditionnelles
dans un algorithme.
Exploiter et faire une analyse
critique d’un résultat
d’échantillonnage.
Isabelle ABOU
33
Intervalle de fluctuation
d’une fréquence au seuil de
95%.
Réalisation s’une simulation
COMMENTAIRES
• L’objectif est d’amener les élèves à un
questionnement lors des activités
suivantes:
• - L’estimation d’une proportion inconnue
à partir d’un échantillon
• - La prise de décision à partir d’un
échantillon.
Isabelle ABOU
34
INTERVALLE DE FLUCTUATION
AU SEUIL DE 95%
• Relatif aux échantillons de taille n, est l’intervalle centré
autour de p, proportion d’un caractère dans la population, où
se situe, avec une probabilité égale à 0,95, la fréquence
observée dans un échantillon de taille n.
• Cet intervalle peut être obtenu, de façon approchée par
simulation.
• Le professeur peut indiquer aux élèves le résultat suivant,
utilisable dans la pratique pour les échantillons de taille
n>=25, et des proportions p du caractère comprise entre 0,2
et 0,8.
• Si f désigne la fréquence du caractère dans l’échantillon, f

1
1 
appartient à l’intervalle:
avec une
p

;
p



probabilité d’au moins 0,95. 
n
n
• Le professeur peut faire percevoir expérimentalement la
validité de cette propriété mais elle n’est pas exigible.
Isabelle ABOU
35
PENDANT LE STAGE
•
•
•
•
•
Nous allons donner les justifications mathématiques,
basées sur la théorie de la statistique inférentielle,
qui permettent de justifier la construction de
l’intervalle de fluctuation.
Nous préciserons les approximations qui sont faites
dans le programme de seconde.
Nous aborderons la théorie de l’échantillonnage et
ses deux applications principales, dont il faut bien
comprendre les hypothèses de départ.
1/ La prise de décision à partir d’un échantillon, où
l’on connaît la proportion dans la population entière.
2/ L’estimation d’une proportion inconnue dans la
population, à partir d’un échantillon.
Isabelle ABOU
36
A SUIVRE…
2ième PARTIE
LA THÉORIE
Isabelle ABOU
37
Téléchargement