1
CHAPITRE 1 : STATISTIQUE DESCRIPTIVE VS STATISTIQUE
INFERENTIELLE
La statistique descriptive regroupe l’ensemble des opérations qui aident à
résumer les caractéristiques d’un échantillon de population. Elle utilise pour cela des
représentations de données sous forme de graphiques, de tableaux et d'indicateurs
numériques (par exemple des moyennes, écart type, variance…). Elle permet de
dégager les caractéristiques essentielles du phénomène étudié et de suggérer des
hypothèses pour une étude ultérieure plus sophistiquée.
La statistique inférentielle se concentre sur l’utilisation de ces données
résumées à partir de la statistique descriptive et prévoient les caractéristiques pour
l’ensemble de la population à partir des tests statistiques. Elle utilise les mesures du
groupe d’échantillon et fait des généralisations basées sur celles-ci.
LA NOTION DE TESTS PARAMETRIQUES ET NON PARAMETRIQUES
On distingue deux familles de tests statistiques : les tests paramétriques et les tests
non paramétriques
Les tests paramétriques sont ceux qui nécessitent que certaines conditions
d’applications ou paramètres soient vérifiés pour être applicable. Il s’agit en effet des
tests dont les conclusions s’appuient sur des lois de probabilité qui nécessitent que la
ou les distributions observées respectent certaines caractéristiques.
Les tests non paramétriques sont ceux qui ne nécessitent pas forcement que
les conditions d’application soient vérifiées pour être applicable. On dit aussi qu’ils
sont indépendants d’une distribution.
2
Avantages et inconvénients des tests paramétriques et non paramétriques
AVANTAGES ET INCONVENIENTS DES TESTS STATISTIQUES
Tests paramétriques
Tests non paramétriques
Avantages
Fiabilité et pertinence
Très puissant et précis avec
plus de chance de détecter un
effet ou une différence réelle
si elle existe
Possibilité de généralisation
et des prédictions sur la
population en fonction des
données de l’échantillon
Robuste et flexible car ils
peuvent traiter les données
biaisées, présentant des
valeurs aberrantes ou ayant
des échelles différentes.
N’exigent pas que l’on
dispose d’échantillons de
grande taille
Inconvénients
Sensible aux violations des
hypothèses, telles que la
normalité…
Moins puissants, car
peuvent conduire à
accroitre le risque d’une
erreur de seconde espèce
Les tests d’hypothèses
Selon Ficher, un test d’hypothèse se définit comme un moyen de prendre une
décision en se basant sur des données échantillonnées. Pour Moore, il s’agit d’un
processus qui permet de déterminer si les données fournissent suffisamment des
preuves pour rejeter une hypothèse nulle (H0) au profit d’une hypothèse alternative
(H1).
3
Les principes des tests d’hypothèses
Les tests d’hypothèses reposent sur une variété de principes fondamentaux qui
guident et orientent leur utilisation et leur interprétation. On distingue entre autres :
la formulation des hypothèses statistiques, le seuil de signification…
Les hypothèses statistiques : l’hypothèse nulle vs l’hypothèse alternative
L’hypothèse nulle noté H0, est l’hypothèse qui est soumis au test empirique. Elle
repose sur une déclaration selon laquelle il n’y a pas de différence ou d’effet entre
les groupes ou les variables étudiées. En d’autres termes, l’hypothèse nulle est celle
que le chercheur cherche à rejeter en faveur de l’hypothèse alternative. Cette
hypothèse suppose que ce que l’on étudie est lié à des facteurs aléatoires (où le hasard
intervient) résultant de variation d’échantillonnage et non à un ou plusieurs facteurs
systématiques expliquant ce que l’on a observé. En clair, formuler une hypothèse
nulle, c’est dire qu’il n’y a rien, que toutes les mesures sont égales ou que les
échantillons proviennent des mêmes populations.
L’hypothèse alternative noté H1, est l’hypothèse que l’on souhaite soutenir.
Contrairement à l’hypothèse nulle, l’hypothèse alternative repose sur une déclaration
selon laquelle il existe une réelle différence ou d’effet entre les groupes ou les
variables étudiées. C’est l’hypothèse posée par le chercheur qui souhaite vérifier que
ce qu’il observe n’est pas liée à des erreurs d’échantillonnage ou à des facteurs
aléatoires (dus au hasard) mais plutôt à des facteurs qu’il a manipulés ou étudiés.
Seuils de significativité et de décision
Le seuil de significativité indique la probabilité à partir de laquelle on peut être
amené à rejeter l’hypothèse nulle. Par exemple, un chercheur envisage tester une
4
hypothèse au seuil α=5%. 5% ici représente le seuil de signification a partir duquel
on peut rejeter l’hypothèse nulle. C’est- à dire qu’on admet que le chercheur peut se
tromper à 5%.
Erreur de type I et erreur de type II
Faire une erreur de type I, (encore appelée « risque de 1ère espèce » ou « faux
positif ») consiste à rejeter l’hypothèse nulle (H0) alors que dans la réalité, cette
hypothèse est vraie. Il s’agit donc de conclure à une différence s’il n’y en a pas.
Faire une erreur de type II, (encore appelée « risque de 2ème espèce » ou « faux
négatif ») consiste à ne pas rejeter l’hypothèse nulle (H0) alors que dans la réalité,
cette hypothèse est fausse. Il s’agit donc de ne pas conclure à une différence alors
qu’il en existe une.
Tests de comparaison des moyennes : Tests Z et T-Student
Les tests Z et t-student sont deux tests statistiques pour comparer les moyennes
entre les paramètres. Dans la plupart des cas, on enregistre 3 cas de figures : la
comparaison d’une moyenne à un standard, la comparaison de deux moyennes sur
échantillons indépendants, la comparaison des deux moyennes sur échantillons
appariés.
5
1. Comparaison d’une moyenne à un standard
Ce cas de figure concerne le cas où l’on souhaite comparer la moyenne d’un petit
groupe d’échantillon par rapport à celle d’une population. Plus précisément, nous
optons pour ce test dans le cas nous avons extrait un échantillon à partir d’une
population dont nous ne connaissons pas les paramètres de dispersion (la variance
ou l’écart type) et que nous voulons comparer cet échantillon à sa population
théorique.
Exemple d’application pour les petits échantillons : cas du test t-student
Supposons qu’au niveau national, la moyenne des résultats à un test d’attention
soutenue pour les enfants âgés de 10 ans soit de 100 points. Nous nous intéressons
aux scores de 12 élèves de 10 ans dans une série de classe donnée qui ont obtenu un
score moyen de 106, avec un écart type de 5.61 ; On se demande si le score moyen
obtenu par cet échantillon est supérieur à la norme nationale ? On teste l’hypothèse
au seuil α=5%.
Identification des Données :
La moyenne de la population, notée µ est de 100, soit µ=100 ; La moyenne de
l’échantillon, est représentée ici par la lettre x, soit x=106 ; La taille de l’échantillon
N=10 ; L’écart type de l’échantillon noté S vaut 5.61 soit s=5.61.
Les données étant relevées, il s’agit maintenant de formuler les hypothèses
statistiques.
Formulation des hypothèses statistiques
1 / 107 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !