Telechargé par insan_31

Stat-Cours1

publicité
MÉTHODOLOGIE DE
L’EXPÉRIMENTATION
ET STATISTIQUES
LOGO-E-5001
Julie Bertels
[email protected]
CO3/CRCN - Solbosch & LCFC - Hôpital Erasme
RÉFÉRENCES
Dancey, C.P., & Reidy, J. (2016). Statistiques sans maths pour psychologues
(2e édition française). Louvain-la-Neuve: De Boeck.
ORGANISATION DU COURS
JASP - A FRESH WAY TO DO STATISTICS
➤
https://jasp-stats.org
➤
Version 0.10.2 (0.13.1)
➤
Gratuit et intuitif
➤
PC ou Mac
➤
Fichiers csv (Excel)
PLAN DU PREMIER COURS
➤
Variables et plans expérimentaux
➤
Statistiques descriptives et représentations graphiques des
données
➤
Probabilités, distributions d’échantillonnage et intervalles de
confiance
VARIABLES
ET
PLANS EXPÉRIMENTAUX
VARIABLES
➤
Les statistiques donnent des informations sur des objets que l’on
peut mesurer: les variables
➤
Ces facteurs peuvent prendre différentes valeurs selon les personnes,
les conditions dans lesquelles les mesures sont prises…
➤
➤
Exemples: le niveau d’anxiété, la température, le sexe,
l’intelligence, la profession, le temps de réaction, le nombre de
réponses correctes à un test, le nombre de symptômes se
rapportant à une maladie…
On s’intéresse aux variables parce qu’on souhaite comprendre
pourquoi et comment elles varient plutôt que de rester constantes
➤
Mesurer et enregistrer les changements de ces variables, dans une
situation donnée
TYPES DE VARIABLES
➤
Variables continues: Elles peuvent prendre n’importe quelle valeur
dans un intervalle donné. La seule limite à la précision de la mesure est
la précision de l’instrument de mesure lui-même
➤
Ex: Temps de réaction, température, distance, durée d’exposition…
➤
Rem: Une variable est continue même si l’instrument de mesure ne
l’est pas.
➤
Ex: L’intelligence vs. le QI; Anxiété vs. STAI
TYPES DE VARIABLES
➤
Variables discrètes: Elles ne peuvent prendre que certaines valeurs
dans l’intervalle où elles varient (nombre de symptômes, nombre
d’enfants…)
➤
Certaines variables discrètes sont traitées comme des variables
continues (notamment lorsqu’elle peuvent prendre un grand nombre
de valeurs), et sont considérées comme telles dans les traitements et
tests statistiques
➤
Ex: Le nombre de réponses correctes
TYPES DE VARIABLES
➤
Variables catégorielles: les valeurs différentes sont des
catégories différentes
➤
Ex: Sexe, profession, couleur des yeux…
CATÉGORISATION DES VARIABLES CONTINUES ET DISCRÈTES
➤
➤
➤
Des variables continues ou discrètes sont parfois transformées en
variables catégorielles
On fixe (arbitrairement) des valeurs particulières sur une échelle
continue afin de constituer des catégories
➤
Ex: Comparaison du temps de réaction dans trois classes d’âge
différentes: jeune vs moyen vs âgé
➤
Ex: Effet de l’anxiété sur la mémoire: comparaison sujets
anxieux vs. non-anxieux. L’anxiété étant une variable continue
mesurée sur une échelle discrète (test d’anxiété)
Réduit la finesse des analyses statistiques / perte d’information
Petit
150 cm
Grand
168 cm
170 cm
VARIABLES CONFONDUES
Programme d’aide à
l’apprentissage de la
lecture
Temps passé
à lire à la
maison
Performance en lecture
QI
Trouble de l’audition
Trouble général
d’apprentissage
CORRÉLATION ET CAUSALITÉ
➤
Le traitement statistique des données dépend de la nature des variables
étudiées et de l’organisation de l’étude
➤
Observation/Etude corrélationnelle: Mesure de la corrélation ou du lien
entre deux variables (Ex: dépression/anxiété)
➤
Causalité: Implique de manipuler une variable et d’observer (mesurer) les
effets sur l’autre variable.
☹
Facteur de détresse
générale
☹
Dépression
☹
Anxiété
DÉMARCHE EXPÉRIMENTALE
➤
On mesure l’effet de la manipulation d’un ou plusieurs facteurs (les variables
indépendantes, VI) sur une autre variable (la variable dépendante, VD)
➤
Le but de l’expérience est de confirmer ou non la dépendance entre VI et VD
➤
De manière plus générale, si l’on étudie une variable X en fonction d’une variable Y,
alors X = VD et Y = VI
➤
Exemples de VI : L’âge, le sexe, l’entraînement… (souvent: différents groupes)
Exemples de VD : Le score à un questionnaire, le temps de réaction…
➤
Le chercheur doit aussi bloquer tous les autres facteurs susceptibles d’influencer le
phénomène (les variables parasites ou confondues)
➤
➤
Ex : vigilance, moment du test,…
Approche expérimentale : Double démarche de variation (du facteur à l’étude) et de
neutralisation (des variables parasites).
VI ET VD
➤
Comment être sûr·e que les variations de la VD sont dues à
la VI?
➤
On ne peut pas en être sûr·e. Il est difficile de contrôler et
d’identifier toutes les variables parasites susceptibles
d’influencer la mesure de la VD
➤
On ne peut que limiter l’impact des variables parasites en
assignant aléatoirement les sujets aux différentes valeurs
prises par la VI (ex: les groupes)
➤
randomisation
QUASI-EXPÉRIENCE
➤
En sciences humaines, on s’intéresse fréquemment à des variables qu’on ne
peut pas directement manipuler
➤
On ne peut pas toujours assigner aléatoirement les sujets aux groupes définis
par les différentes valeurs prises par la VI (la variable sexe, par exemple)
➤
On ne peut donc pas être certain que c’est la (pseudo-)manipulation de la VI
qui est la cause des variations de la VD
➤
Bien qu’on n’en tienne en général pas compte, de nombreux tests
statistiques sont basés sur l’hypothèse d’une distribution aléatoire des sujets
dans les différents groupes
PLANS EXPÉRIMENTAUX
Plan
Caractéristiques
observation
(étude de
corrélation)
Lien entre les variables
Ne démontre pas de causalité
Utilise des tests de corrélation
Test statistiques
r de Pearson
r de Spearman
test t
expérience
Manipulation de la VI
Répartition aléatoire des sujets
Comparaison inter-groupes
Anova
U de Mann-Whitney (gpes indépendants)
test de Wilcoxon (groupes appariés)
test t
quasiexpérience
Pseudomanipulation de la VI
Répartition non-aléatoire des sujets
Comparaison inter-groupes
Anova
U de Mann-Whitney (gpes indépendants)
test de Wilcoxon (groupes appariés)
VARIABLES INTER- ET INTRA-SUJETS
➤
Variable inter-sujet: chaque sujet est assigné aléatoirement à
l’une des conditions (plan simple ou à mesures
indépendantes, between subjects)
➤
Variable intra-sujet: chaque sujet est assigné à chacune des
conditions (plan à mesures répétées, within subject)
PLANS SIMPLES ET À MESURES RÉPÉTÉES
PLAN
simple
à mesures
répétées
AVANTAGES
INCONVENIENTS
pas d’effet de fatigue
nombre de sujets plus
grand
moins de risque de comprendre
le but de l’étude
variables parasites
moins de participants
nécessaires
effet de fatigue ou
d’entraînement
bon contrôle des variables
parasites
effet d’ordre
(=>contrebalancement)
risque de dévoiler le but
de l’étude
JASP - A FRESH WAY TO DO STATISTICS
➤
https://jasp-stats.org
➤
Version 0.10.2 (0.13.1)
➤
Gratuit et intuitif
➤
PC ou Mac
➤
Fichiers csv (Excel)
JASP - OUVRIR UN FICHIER
JASP - PLAN SIMPLE
Une ligne
correspond à un
sujet
VI
VD
JASP - MESURES RÉPÉTÉES
VI
VD
Une ligne
correspond à un
sujet
STATISTIQUES DESCRIPTIVES
ET
REPRÉSENTATIONS GRAPHIQUES DES DONNÉES
ECHANTILLON ET POPULATION
Population
Estimation des
paramètres de
la population
☺
Statistiques
inférentielles
Calcul des
statistiques de
l’échantillon
(stats
descriptives:
moyenne, écarttype…)
☺
☺
☺
Un échantillon de
4 personnes
☻
☺
☺ ☺
☻
☺
☻
Un échantillon de 4
personnes
☺
☺
☻
☺
☺
☻
☻
☻
☻
☻
☻
☻
☻
Un échantillon
de 4 personnes
MESURES DE TENDANCE CENTRALE
➤
donnent des indications de la valeur typique de la série de données
➤
Moyenne X : somme des valeurs divisée par le nombre de valeurs
-
2, 20, 20, 12, 12, 19, 19, 25, 20 (9 observations) -> 16,56
-
Estimer la moyenne de la population à partir de la moyenne de l’échantillon? un peu rapide…
➤
Médiane: la valeur qui coupe l’échantillon en deux parts égales
➤
Mode: la valeur la plus fréquente
‣
La moyenne est basée sur les valeurs, la médiane sur les rangs et le mode sur les fréquences
‣
La moyenne est très sensible aux valeurs extrêmes
observation
moyenne
médiane
1 2 3 4 5 6 7 8 9 10
5,5
5,5
1 2 3 4 5 6 7 8 9 20
6,5
5,5
1 2 3 4 5 6 7 8 9 100
14,5
5,5
MESURES DE TENDANCE CENTRALE
Scores
2
20
20
12
12
19
rang moyen
Scores ordonnés
19
25
20
médiane
mode
2
12
12
19
19
20
20
20
25
num. d’ordre
1
2
3
4
5
6
7
8
9
rangs
1
2.5
2.5
4.5
4.5
7
7
7
9
médiane = (19+20)/2 = 19.5
Scores ordonnés
2
12
12
19
19
20
20
20
25
26
num. d’ordre
1
2
3
4
5
6
7
8
9
10
rangs
1
2.5
2.5
4.5
4.5
7
7
7
9
10
ERREUR D’ÉCHANTILLONNAGE
Population
moyenne = 100
THEOREME CENTRAL LIMITE:
Les estimations à partir
d’échantillons
sont
individuellement “incorrectes”
mais correctes en moyenne.
Lorsque la taille de l’échantillon
augmente, la probabilité que
l’estimation de la moyenne soit
correcte augmente.
☺
moyenne = 75
135
165
☺
☺
78
90
☺
☺
153
☺
☺
72
☺
moyenne = 150
☺
☺
☺
☺
Un échantillon de 4
personnes
☺
☺
☺ ☺
☺
Un échantillon de
4 personnes
☺
152
☺
☺
☺
☺
☺
☺
60
moyenne des échantillons = 112,5
MESURES DE DISPERSION
•
Indiquent à quel point les valeurs sont éloignées les unes des autres
•
L’étendue est la différence entre la plus grande et la plus petite valeur. Elle n’est pas très
informative en termes de dispersion globale
•
L’écart-type représente l’écart moyen par rapport à la moyenne
•
La somme des écarts à la moyenne est nulle
scores
1
4
5
6
9
11
écarts à la moyenne
-5
-2
-1
0
3
5
carrés des écarts
25
4
1
0
9
25
moyenne = 6
•
Variance = moyenne des carrés des écarts à la moyenne (ici: 10,67)
•
Ecart type = racine carrée de la variance (ici: 3,27)
•
Dans le cas d’une distribution normale, près de 70% des valeurs se trouvent à moins d’un
écart-type de la moyenne
JASP - STATISTIQUES DESCRIPTIVES
JASP - STATISTIQUES DESCRIPTIVES
JASP - STATISTIQUES DESCRIPTIVES
JASP - STATISTIQUES DESCRIPTIVES
étendue
BOÎTE À MOUSTACHES
6 7 8 9 10 12
Comment trouver la position des charnières?
(3,5 + 1) / 2 = 2,25 ≈ 2
médiane = 8,5
=> 1e et 3e quartiles sont les 2e valeurs les plus petites/grandes de
la série de données
(rang 3,5)
=> premier quartile = 7 et troisième quartile = 10
espace
interquartiles
valeurs adjacentes
premier et troisième quartiles (« charnières »)
(50 % des observations entre les 2)
médiane
SCORES EXTRÊMES
6 7 8 9 10 12 30
Que faire des valeurs extrêmes?
1 valeur extrême
(rang 7)
•
La moyenne reflète les scores typiques et
est sensible aux valeurs extrêmes
•
En cas de problème lors de la prise de
données: retirer le participant
•
Si aucune raison particulière:
•
-
remplacer le score extrême par le score
le plus (moins) élevé + 1 (- 1)
-
remplacer le score par la moyenne de
l’échantillon (sans la valeur aberrante)
-
…
L’indiquer lors de la présentation des
résultats
HISTOGRAMMES
DISTRIBUTION DES DONNÉES - DISTRIBUTION NORMALE
•
En sciences humaines, de nombreuses variables se distribuent normalement: la taille, le poids,
le niveau d’anxiété, l’intelligence…
•
De nombreux tests statistiques sont basés sur l’hypothèse que les variables étudiées se
distribuent normalement.
moyenne
mode
médiane
Courbe en cloche caractérisée par:
-
une moyenne
-
un écart-type
=> pour une moyenne et un écart-type fixés,
il y a une distribution normale précise
DISTRIBUTIONS NORMALES
Coefficients d’asymétrie. On estime que celui-ci doit
se situer dans l’intervalle [1,-1] pour que l’on puisse
faire l’hypothèse de normalité, et donc utiliser les
tests statistiques qui la supposent
DISTRIBUTIONS NON-NORMALES - DISTRIBUTIONS ASYMETRIQUES
DISTRIBUTIONS NON-NORMALES - DISTRIBUTIONS BIMODALES
PROBABILITÉS
DISTRIBUTIONS D’ÉCHANTILLONNAGE
INTERVALLES DE CONFIANCE
VOCABULAIRE DE BASE DES PROBABILITÉS
•
Une probabilité est une mesure du caractère plus ou moins plausible d’un événement, càd la chance
(ou le risque) qu’il se produise. C’est un chiffre compris entre 0 et 1 (ou %).
•
0 est la probabilité associée à un événement qui ne se produira certainement pas
•
1 est la probabilité associée à un événement certain
•
La probabilité d’un événement = le nombre de cas où l’événement se produit divisé par le nombre
de possibilités (tous ces événements étant équiprobables):
-
probabilité de tirer un 6 au dé = 1/6 = 0,1667
-
probabilité de tirer un chiffre < 3 = ?
-
probabilité de tirer un chiffre pair = ?
•
Probabilité conditionnelle = risque qu’un événement se produise étant donné un autre événement.
Ex: Le risque d’attraper un cancer du poumon, si l’on fume
•
Probabilités appliquées aux statistiques: statistiques inférentielles
‣
Lorsque nous menons une recherche, c’est en général dans le but d’en déduire des résultats
généraux (on fait des inférences)
‣
Permettent d’évaluer le risque de se tromper lorsqu’on étend à la population les observations
réalisées au niveau de l’échantillon
LA DISTRIBUTION NORMALE STANDARD - N(0,1)
•
C’est une distribution normale avec une moyenne de 0 et un écart-type de 1
•
Grâce à elle, nous pourrons comparer différents scores obtenus dans un
même groupe, et des scores obtenus dans différents groupes
‣
Standardisation des données (scores z)
z=
•
x−X
S
La distribution normale standard est une densité de probabilités
•
Elle permet d’associer à chaque valeur une probabilité
•
Elle permet de connaître la probabilité de tomber entre deux valeurs particulières
EXEMPLE: LE QI
•
On sait que le QI moyen est de 100, et l’écart-type de 15
•
Vous avez obtenu un score de 135, votre score z est donc de:
135 − 100
z=
= 2, 33
15
N(100,15)
z=
x−X
S
•
Votre QI se situe donc à 2,33 écarts-type de la moyenne
•
Comparaison de différents scores au sein d’un groupe: en se référant à la table de la
distribution normale standard, on constate que 99,01% des individus se situent en-dessous de
cette valeur. Par conséquent, 0,99% des individus se situent au-delà.
scores z
proportion inférieure proportion supérieure
2,32
0,9898
0,0102
2,33
0,9901
0,0099
2,34
0,9904
0,0096
EXEMPLE: COMPARAISON ENTRE POPULATIONS
•
A la sortie des études secondaires, un étudiant se demande s’il doit s’orienter vers des
études scientifiques ou littéraires. Cet étudiant a obtenu la note de 64/100 lors de
l’examen final de français et celle de 45/100 en mathématiques
note
moyenne de la écart-type de la
population
population
Français
64
55
9
Mathématiques
45
40
4
scores z
(64-55) / 9 =
1
(45-40) / 4 =
1.25
z=
x−X
S
DISTRIBUTIONS D’ÉCHANTILLONNAGE
• L’application des probabilités à la recherche permet de déterminer
si les statistiques observées au niveau de l’échantillon peuvent
être généralisées, avec un risque raisonnable, au niveau de la
population
• Rappelez-vous que lorsque la taille de l’échantillon (et/ou le
nombre d’échantillons différents pris en compte) augmente,
l’estimation de la moyenne se rapproche de la moyenne de la
population
• Si on considère les moyennes observées dans différents
échantillons d’une même population, on obtient une distribution
d’échantillonnage de la moyenne
• Les distributions d’échantillonnage tendent vers la normalité,
même si la variable sous-jacente ne l’est pas (
)
DISTRIBUTIONS D’ECHANTILLONNAGE
Distribution de tous les lancers de dés,
si on y avait passé notre vie (population
des lancers)
Distribution d’échantillonnage de
la moyenne
INTERVALLES DE CONFIANCE
•
La moyenne de l’échantillon est une estimation ponctuelle de la moyenne de la
population. On ne sait pas à quelle distance la première se trouve de la seconde ni si
celle-ci est surestimée ou sous-estimée
•
Les intervalles de confiance pour la moyenne sont des estimations bornées de la
moyenne. Ils fournissent un encadrement par deux valeurs entre lesquelles on peut
raisonnablement estimer que la moyenne se trouve. On parle d’estimation par intervalle.
•
Ex: Echelle de dépression de Beck (0-63):
La moyenne de la population peut se trouver n’importe où sur cette ligne
0
10.72
63
moyenne de
l’échantillon
On est sûr à 100% que la moyenne de la
population se trouve entre ces deux bornes
On va réduire cet intervalle grâce à ce qu'on sait des caractéristiques de la distribution
d’échantillonnage de la moyenne
INTERVALLES DE CONFIANCE
Distribution d’échantillonnage de la moyenne
-
normale
-
sa moyenne (donc la moyenne des moyennes des échantillons) = la moyenne de la population
En considérant les scores z, on peut
toutefois estimer à 95,44%
[(34.13+13.59)*2] que la moyenne
de l’échantillon se trouve à moins de
2 écarts-types de la moyenne de la
population.
On est certain à 95% que la moyenne
de l’échantillon se situe entre -1.96
et +1.96 écarts-type de la moyenne
de la population.
?
La moyenne de l’échantillon peut se
trouver n’importe où sur cette ligne
- 1,96
1,96
95% des observations
Attention, on parle de l’écart-type
de
la
distribution
d’échantillonnage de la moyenne
pas de celui de l’échantillon!
ERREUR STANDARD DE LA MOYENNE
•
Pour estimer la moyenne de la population sur base de la moyenne de l’échantillon, il
nous faut encore un élément: l’écart-type de la distribution d’échantillonnage de la
moyenne, appelé erreur standard de la moyenne (SEM)
•
Il s’agit donc de l’écart moyen entre la moyenne d’un échantillon et la moyenne des
moyennes des échantillons (qui correspond à la moyenne de la population)
•
L’erreur standard nous indique donc dans quelle mesure les échantillons s’écartent de la
population en termes de moyenne
•
Comment estimer l’erreur standard sans étudier de nombreux échantillons? (NB: si on
étudiait de nombreux échantillons, on pourrait directement estimer la moyenne de la
population!)
•
Si on ne prend en compte que des grands échantillons, leur moyenne sera proche de celle
de la population — l’erreur standard sera donc petite. Si on prend de petits échantillons,
leurs moyennes seront plus dispersées autour de la moyenne de la population — l’erreur
standard sera donc grande.
‣
L’effectif de l’échantillon doit donc intervenir dans l’estimation de l’erreur
standard
écart − type
SEM =
N
2, 5, 6, 7, 10, 12
moyenne = 7
écart-type = 3.58
?
N=6
- 1,96
1,96
95% des observations
SEM?
3.58 / √6
= 1.46
Bornes de l’IC au niveau de confiance 95%?
1.46 x (-1,96) = -2.86
1.46 x 1,96 = 2.86
L’IC est délimité par les valeurs 7 ± 2.86
[4.14; 9.86]
4,14
IC 95%
7
N=6
moyenne de
l’échantillon
9,86
2, 5, 6, 7, 10, 12,…
moyenne = 7
écart-type = 3.58
?
N = 100
- 1.96
1.96
95% des observations
SEM?
3.58 / √100
= 0.358
Bornes de l’IC au niveau de confiance 95%?
0.358 x (-1.96) = -.7
0.358 x 1.96 = .7
L’IC est délimité par les valeurs 7 ± .7
[6.3; 7.7]
IC 95%
4,14
9,86
7
N=6
moyenne de
l’échantillon
6.3
IC 95%
7
N = 100
moyenne de
l’échantillon
7.7
RÉSUMÉ
•
La moyenne de l’échantillon donne une estimation de la moyenne de la population. Mais
cette estimation est biaisée par l’erreur d’échantillonnage (et on ne sait pas de combien).
•
La distribution d’échantillonnage de la moyenne est la distribution des moyennes
observées sur un grand nombre d’échantillons.
•
La distribution d’échantillonnage de la moyenne est une distribution normale.
•
Or, dans le cas d’une distribution normale, 95% de la population se trouve entre
-1.96 et 1.96 écart-types de la moyenne (de la population).
•
On peut appliquer ce résultat à la distribution d’échantillonnage de la moyenne: on est sûr
à 95% que la moyenne de la population se trouve à moins de 1.96 erreurs standards de la
moyenne observée.
•
•
L’écart-type de la distribution d’échantillonnage s’appelle l’erreur standard de la
moyenne et vaut approximativement l’écart-type de l’échantillon divisé par la racine
carré du nombre d’observations.
On détermine l’intervalle de confiance autour de la moyenne de l’échantillon en
multipliant par 1.96 l’erreur standard et en calculant la moyenne ± cette valeur. On est sûr
à 95% que la vraie moyenne se trouve dans l’intervalle ainsi déterminé.
Distribution d’échantillonnage de la moyenne
La moyenne de l’échantillon est supérieure à celle de la population
(mais, avec 95% de certitude, pas de plus 1.96 E.T.) Donc, avec 95% de
certitude, la vraie moyenne n’est pas inférieure à celle de
l’échantillon de plus de 1.96 E.T. de la distribution d’échantillonnage
de la moyenne.
La distribution d’échantillonnage de la moyenne est normale
La moyenne de l’échantillon est inférieure à celle de la population (mais,
avec 95% de certitude, pas de moins 1.96 E.T.) Donc, avec 95% de
certitude, la vraie moyenne n’est pas supérieure à celle de l’échantillon
de plus de 1.96 E.T. de la distribution d’échantillonnage de la moyenne.
➡ L’estimation de l’écart-type de la distribution d’échantillonnage de la moyenne (l’erreur standard de la moyenne, SEM) permet de
calculer l’intervalle de confiance à 95% pour la moyenne [-1.96xSEM; 1.96xSEM]
Téléchargement