Statistiques L2S3
1
INTRODUCTION
I. VOCABULAIRE
Donnée statistique : résultat de l’observation d’une variable pour un individu.
Population : totalité des individus sur lesquels portent certaines préoccupations.
Echantillon : sous-ensemble/ partie de la population pour lesquelles on collecte les données.
Statistiques descriptives : décrire, résumer les données sans se préoccuper du champ de la collecte.
Les statistiques inductives (ou informelles) sont un ensemble de méthodes qui font le cheminement :
« généraliser quelque chose à une population à partir de l’observation d’un échantillon ».
Remarques : Certaines populations sont finies donc observables (étudiant L2 psycho Angers) et d’autres
populations sont quasi-infinies, donc inobservables. Travailler avec un échantillon permet une réduction du
coût, un gain de temps, une augmentation des possibilités d’études.
II. INDICATEURS USUELS EN STATISTIQUES DESCRIPTIVE
Nous réutiliserons la moyenne arithmétique et la variance on considère une variable quantitative X pour
laquelle on dispose de N observations.
Cf. formulaire L1
III. CONSTITUTION DES ECHANTILLONS
L’échantillonnage (ou sondage) : ensemble des opérations de prélèvement d’un échantillon.
A. METHODE D’ECHANTILLONAGE
1. Echantillonnage raisonné
Méthode de quotas : L’échantillon est choisie pour constituer une image fidèle de la population pour certaines
variables, appelées variables de contrôle. L’enquêteur choisi les enquêtés avec comme contrainte le respect de
certains quotas pour les variables de contrôle (l’âge, le sexe, catégorisation socio-professionnelle…). Les
variables de contrôle doivent être corrélées avec le domaine de l’étude. Leur répartition doit être connue de la
population.
Avantage : Coût très faible, délais très court, cela traite (en les oubliant) les refus de réponse.
2. Echantillonnage aléatoire
Echantillonnage aléatoire simple :
Méthode dans laquelle chaque échantillon (d’effectif donné) à la même probabilité d’être tiré. Il faut une base
de sondage. Cependant, il y a des difficultés de mise en œuvre.
Echantillonnage par grappe :
On divise la population en grappe, on a une base de sondage de grappes. On tire un échantillon aléatoire de
grappe. On interroge tous les individus des grappes tirées. (Ex : immeuble, rue, village, une partie du
village…). Ceci augmente la faisabilité d’une enquête car le coût et le délai sont réduits.
Règle d’Or : le bon échantillon est celui qui est aléatoire, c’est ce qui fonde la statistique inductive sur le
calcul des probabilités, cela donne une base scientifique à l’opération de généralisation.
Statistiques L2S3
2
B. OUTILS ALEATOIRES
1. Tables de nombres aléatoires
Outils ancien : c’est une table qui contient des nombres obtenus par des procédés aléatoire (tirages,…).
2. Générateur de nombres pseudo-aléatoire :
Outils moderne : un générateur engendre des nombres par un procédé déterministe qui simule le hasard.
Méthode de LEHMER :
M = diviseur k = multiplicateur Xo = graine
Xi + 1 = kXi (module M) c’est-à-dire Xi + 1 est le reste obtenu quand on divise le produit kXi par M.
Exemple : calculer X1. X1 est le reste obtenu quand on divise le produit kXo par M.
M= 101 k = 89 Xo = 253
On calcul kXo = 89 x 23 = 2047 ; On divise le résultat par M : X1 = 2047/101 = 27,….
X1= 27 X2=80 Ce générateur produit des nombres entiers compris entre 1 et 100 donc entre 1 et M-1.
Quand on divise ces nombres obtenus par M on obtient des nombres rationnels compris dans
l’intervalle ]0 ;1[ A partir de ces nombres uniformément répartis sur l’intervalle on peut engendrer
des nombres répartis selon n’importe quelle loi (binomiale, normale…)
Statistiques L2S3
3
NOTIONS SUR L’ESTIMATION
I. INTRODUCTION
On dispose d’une population dont on extrait un échantillon, on utilise comme variable le poids et on considère
un paramètre défini sur la population : le poids moyen des poissons de l’étang. Il va falloir estimer ce
paramètre à l’aide d’un estimateur.
Exemple du pisciculteur, il utilise un échantillon d’effectif 5 (0,3; 0,4; 0,4; 0,45; 0,5) et calcule la moyenne :
 = 0,41 Cependant si on prélève un autre échantillon (0,4; 0,45; 0,45; 0,5;
0,5) on obtient une estimation de 0,46 qui est différente.
L’estimation varie avec l’échantillon, il y a toujours une incertitude.
a. Démarche population => échantillon : Théorie de l’échantillonnage
On connait la répartition de la variable dans la population, on cherche à étudier les propriétés de tous les
échantillons possibles. C’est une démarche de probabilité, elle fournit les résultats théoriques utilisés dans la
démarche inverse.
b. Démarche échantillon => population
On connait un échantillon et on cherche à généralisée à la population certaines propriétés issus de l’étude de
l’échantillon.
La méthode d’estimation permet d’estimer la valeur inconnue d’un paramètre de la population.
La méthode de tests statistiques permet de tester si une propriété de la population est acceptable ou non par
rapport à l’échantillon.
En statistique inductive on ne peut jamais avoir de certitude, il faut faire attention au risque de généralisation
erronée pour le contrôler car on ne peut pas le supprimer.
II. ESTIMATION POUR UNE VARIABLE QUANTITATIVE
a. Moyenne arithmétique
On s’intéresse à la moyenne de la variable X dans la population : , on cherche donc à l’estimer :
Echantillon d’effectif n décrit par n variables statistiques : X1……Xn
On utilise l’estimation
 I que l’on applique à un échantillon pour obtenir  
 i c’est ce qu’on
appelle la moyenne d’estimation, elle va nous permettre d’estimer .
b. Variance
On s’intéresse à la variance de X dans la population : ², on cherche à l’estimer :
On utilise l’estimation S²n =

 i -
 ;
on obtient la variance descriptive ou de population : s²n =

 i - 
Cette formule à un défaut, elle sous-estime ² donc on la remplace par l’estimateur
Statistiques L2S3
4
n-1 =

 i -
 ce qui donne la variance inductive ou d’échantillon s²n-1 =

 i - 
Dans l’exemple du pisciculteur : s²n-1=0,0055
Pour la calculatrice casio l’écart type descriptif est noté x
n et l’écart type inductif x
n-1
III. ESTIMATION POUR UNE VARIABLE QUALITATIVE estimation d’une proportion
On va envisager le cas d’une variable qualitative et se restreindre au cas de 2 modalités notées 
. On
veut estimer à proportion inconnue d’individus présentant la modalité A dans la population ; on la notera .
On extrait un échantillon aléatoire d’effectif n, dans lequel on observe nA individus présentant la modalité A.
On choisit l’estimateur naturel et on estime avec p = nA / n ; c’est la proportion d’individus présentant la
modalité dans l’échantillon.
Statistiques L2S3
5
INFLUENCE STATISTIQUE ET TESTS D’HYPOTHESES
I. PRINCIPES
Objet des tests d’hypothèses : prendre une décision relative à la population en situation d’incertitude en
contrôlant le risque lié à cette incertitude.
Idée ; S’appuyer sur l’expérimentation pour décider (l’expérience fournit les données de l’échantillon)
Effectuer un test statistique c’est réaliser 3 opérations :
- Enoncer une hypothèse expérimentale à laquelle on s’intéresse afin de la confirmer ou de l’infirmer.
Cette hypothèse se rejetter ou non, c’est l’hypothèse nulle notée H0
- On oppose à cette hypothèse, elle joue le rôle d’opposant ou de recours en cas de rejet de H0, on
l’appelle l’hypothèse alternative elle est notée H1
- Déterminer une procédure qui conduit à prendre la décision
o Rejeter H0 et accepter H1
o Ne pas rejeter H0
A la fin de la procédure on doit comparer la réalité et la décision prise :
Ne pas rejeter H0
Rejeter H0
H0 vraie
(1-)
H0 fausse
= 1-
: correspond à la probabilité de rejeter H0 alors que H0 est vraie, c’est la probabilité de rejeter à tort H0.
C’est le risque d’erreur de 1er espèce (de type I), aussi appelé niveau de signification du test.
(1-) correspond à la probabilité de ne pas rejeter H0 quand elle est vraie
: correspond à ne pas rejeter H0 quand elle est fausse, c’est le risque d’erreur de 2nd espèce (type II)
= 1- : correspond à la probabilité de rejeter H0 quand elle est fausse, c’est la puissance du test.
Exercices :
1) H0 : il pleut / H1 il ne pleut pas
L’erreur de 1er espèce correspond à dire que l’on rejette H0 , on considère qu’il ne pleut pas alors
qu’il pleut dehors, donc on met des tongs, on a les pieds mouillés et on tombe malade.
L’erreur de 2nd espèce correspond à dire que l’on ne rejette pas H0, on considère qu’il pleut alors
qu’il ne pleut pas donc on prend un parapluie mais on n’en a pas besoin.
2) H0 : catastrophe / H1 :pas de catacstrophe
L’erreur de 1er espèce correspond à dire que l’on rejette H0, on considère qu’il n’y a pas de
catastrophe alors qu’il y a catastrophe, donc on meurt.
L’erreur de 2nd espèce correspond à dire que l’on ne rejette pas H0, on considère qu’il va y a voir une
catastrophe alors qu’il n’y en a pas donc on prend pas l’avion et on survis.
On veut que la procédure permette de contrôler les valeurs de et , cependant les risques sont antagonistes
donc si diminue augmente et inversement, ils ne peuvent pas tendre tous les deux vers 0, il n’y a donc pas
de certitude.
II. METHODE : polycopié
Etape 1 : Enoncer les hypothèses H0 et H1
Etape 2 : Fixer à priori la valeur du risque
Etape 3 : Choisir l’indicateur « statistique du test » et déterminer sa loi quand H0 est vraie
Etape 4 : Délimiter la zone de rejet de H0
Etape 5 : Calculer la valeur numérique e la statistique du test à partir des données de l’échantillon
Etape 6 : Conclure le test
1 / 19 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !