Atelier de statistique Sommaire - Yvonnick Noël

publicité
Atelier de statistique
AFPSA, Villeneuve d’Ascq
Yvonnick Noël
Université de Rennes 2
2012
Sommaire
Introduction
L’analyse des données test-retest [un modèle gaussien]
Notions de base en régression linéaire gaussienne
Principe de l’analyse par régression des données test-retest
Application à l’analyse de l’efficacité comparée de trois
protocoles
La régression sur le temps [un modèle poissonien]
Processus poissonien
Modèle de régression sur un comptage sans borne supérieure
La prédiction du succès d’une intervention [un modèle binomial]
La loi binomiale
Modèle de régression sur un comptage borné
Types de variables dépendantes
I
Stevens (1944) a introduit en psychologie les distinctions
suivantes :
Structure
Nominale
Ordinale
Intervalle
Rapport
Variables
Qualitatives
(noms)
Quantitatives
(nombres)
Propriété
Pas d’ordre
Ordre
Pas de zéro
Zéro absolu
Exemple
Sexe
Réponse graduée
Température
Temps de réaction
Questions subsidiaires
Nous affinons ces distinctions pour pouvoir choisir un modèle de
distribution :
1. Le nombre de leurs modalités est-il fini ou infini ?
2. Sont-elles de nature discrète (en nombres entiers) ou
continue (en nombres décimaux) ?
3. Ont-elles une borne inférieure ? ou supérieure ? Ou les deux ?
Types de données à partir de VD qualitatives
1. Comptages bornés à gauche et à droite
1.1 Exemple : nombre de bonnes réponses dans un test cognitif à
10 items.
1.2 U = {0, 1, 2, ..., 10}.
2. Comptages non bornés à droite
2.1 Exemple : nombre d’actes agressifs enregistrés sur un jeune
enfant observé en crèche pendant une journée.
2.2 U = {0, 1, 2, 3, ...}.
Types de données à partir des VD quantitatives
1. Mesures physiques bornées à gauche et non bornées à droite
1.1 Exemple : temps de réaction.
1.2 U = [0; +∞[.
2. Mesures physiques non bornées
2.1 Exemple : différence entre deux temps de réaction (IAT)
2.2 U =] − ∞; +∞[.
Modèle de distribution
Pour chacun de ces 4 types de données, nous utilisons un modèle
de distribution différent pour la variable dépendante.
Définition
On appelle modèle de distribution pour une variable X une
fonction f mathématique associant à toute modalité x de X leur
(densité de) probabilité d’apparition f (x).
La forme de cette distribution est modulée par un ou plusieurs
paramètres qui peuvent faire l’objet d’hypothèses psychologiques.
Arbre de décision
Notion de modèle linéaire généralisé
Prestige d’une profession et instruction
I
Nous nous intéressons à la question de savoir si le prestige
social associé à une profession peut être déterminé par le
niveau d’études.
I
Si on note Y la variable qui est objet d’étude (le prestige), et
X la variable explicative supposée (le niveau d’étude), le plus
simple de tous les modèles de relation est le modèle linéaire
ou proportionnel :
Ŷ = β0 + β1 X
avec β0 et β1 deux nombres inconnus ou paramètres
structuraux du modèle.
80
Graphe de relation linéaire
40
0
20
Prestige
60
Y = 5X
Y = 5X−10
0
5
10
15
Niveau d’étude
Interprétation des paramètres
Dans un modèle général de la forme Y = β0 + β1 X :
I
Y = β0 quand X = 0.
I
I
Le paramètre β0 a donc le sens d’être le niveau de base en
prestige pour 0 année d’étude.
Pour X = 1, 2, 3 (etc.), on voit que Ŷ prend les valeurs
β0 + β1 , β0 + 2β1 et β0 + 3β1 (etc.).
I
Le paramètre β1 a donc le sens de l’accroissement en Y pour
un accroissement unité sur X .
Remarque : le modèle peut aussi être réécrit sous la forme
Y = β0 1 + β1 X , ou le symbole 1 représente une « variable »
prenant toujours la valeur 1.
Atelier 1.1
Chargez la librairie R2STATS sous R. Sous l’onglet « Fichier »,
sous-onglet « Librairie », sélectionnez « car > Prestige » :
Examen des données
Estimation du modèle
Représentation graphique
Notion d’erreur
I
Nous avons supposé une relation de proportionnalité entre
éducation et prestige mais nous voyons que cette relation n’est
pas exacte.
I
Par exemple :
I
D’après la feuille de résultats, R2STATS représente une droite
d’équation Y = −10.732 + 5.361X .
I
Deux points ont exactement même abscisse X = 9.93, mais
deux ordonnées différentes : Y1 = 23.3 et Y2 = 50.2. Il y a
donc un écart entre la valeur modèle
Y = −10.732 + (5.361 × 9.93) = 42.50153 et les données
observées.
Variance conditionnelle
Composante aléatoire
I
Nous voyons bien qu’un modèle mathématique de la forme
Y = β0 + β1 X se trompe.
I
Pour une valeur X = x fixée, nous pouvons avoir Y = y1 , y2 , ...
I
On appelle résidu de l’observation i (i = 1, ..., N) la valeur
d’erreur ei = yi − (β0 + β1 xi ).
Modèle statistique
I
Pour bien distinguer ce que l’on observe de ce que prévoit le
modèle, on note Ŷ la prévision faite par le modèle.
I
Données empiriques et prévision du modèle sont réunies par la
relation :
Y
=
Ŷ
+
= (β0 + β1 X ) +
Score = Prévision +
Résidu
(Fixe)
(Aléatoire)
I
Nous ne savons pas prévoir les valeurs que prendra , mais
nous pouvons poser sur elle une hypothèse de distribution.
Choix d’un modèle de distribution
Pour modéliser la distribution de l’erreur, deux propriétés
semblent désirables :
1. On s’attend à ce que notre modèle se trompe autant en
surestimation (résidu positif) qu’en sous-estimation (résidu
négatif) : la distribution devrait donc être symétrique par
rapport à 0.
2. On s’attend à ce que les erreurs très larges (en valeur absolue)
soit plus rares que les erreurs petites : la distribution devrait
donc être unimodale.
La loi normale est un candidat possible dans ce contexte.
Hypothèse de normalité
Interprétation de Ŷ
I
Si nous choisissons un modèle unimodal et symétrique de
distribution de l’erreur, quelle signification statistique va
prendre Ŷ pour toutes les observations qui ont même X ?
I
On voit que le modèle structural peut être réécrit :
E (Y |X = x) = β0 + β1 x
I
On appelle modèle de régression tout modèle structural sur
une espérance conditionnelle.
I
Le modèle complet peut donc s’écrire :
Y |X ∼ N(β0 + β1 X , σ 2 )
Atelier 1.2
1. Charger sous R2STATS le fichier
http://yvonnick.noel.free.fr/data/colere.csv. Les
variables sont deux mesures d’humeur (F. Février, 2012), sur
une échelle bipolaire (une valeur négative indique une humeur
négative). L’humeur a été évaluée avant et après avoir vu un
film sur la corruption et le traffic d’armes dans le monde.
2. On cherche à savoir si le visionnage de ce film produit une
variation significative de l’humeur du sujet (dans un sens
négatif bien sûr).
Questions
I
On appelle X et Y les variables « humeur au prétest » et
« humeur au post-test » respectivement.
I
Représentez graphiquement et interprétez
psychologiquement les modèles de régression suivants :
I
I
I
I
M0 : Ŷ = X
M1 : Ŷ = β0 + X
M2 : Ŷ = β0 + β1 X
Testez et comparez ces 3 modèles sous R2STATS (les boutons
FIXEE et +0 permettent de fixer une pente à 1 et une
ordonnée à l’origine à 0). Examinez les graphiques en cochant
l’option « droite de référence ».
Traitement de l’anorexie par trois méthodes
I
Dans une étude de suivi de 72 patientes anorexiques en milieu
hospitalier, on enregistre les poids (en livres) avant et après
traitement (suivi 3 mois) de 3 groupes indépendants de jeunes
femmes, suivies respectivement en :
I
I
I
hospitalisation classique,
hospitalisation + thérapie cognitive-comportementale,
hospitalisation + thérapie familiale.
Modèles de base
I
Testez successivement les modèles M1 , M2 et M3 de :
I
I
I
I
l’absence d’évolution des poids,
l’évolution des poids identique en moyenne pour toutes,
l’évolution des poids différentes en moyenne, sous la
dépendance du poids initial.
Quel est le meilleur modèle ? Les hypothèses du modèle
sont-elles acceptables ?
Modèle sans groupes
Modèles de groupe
I
Testez les modèles M3 et M4 qui intègre le type de traitement :
I
I
I
d’abord de façon additive (seule l’amplitude de la prise de
poids diffère d’un groupe à l’autre),
puis en interaction avec le poids initial (la dépendance au
poids initial n’est pas la même selon les conditions).
Quel est le meilleur modèle ? Que signifie-t-il ? Les hypothèses
du modèle sont-elles acceptables ?
Modèle de l’évolution distincte par condition
Modèles non-linéaires
I
Activez l’option Lissage dans les graphiques : que
remarquez-vous ?
I
Comment interpréter le résultat du lissage ?
I
Suggérez une amélioration du modèle.
I
Utilisez la fonction poly(,2) pour construire le polynôme
correspondant dans un modèle M5 .
Modèle final retenu
La loi de Poisson
I
La loi de Poisson univariée simple est la loi d’un comptage
d’événements pendant une période de temps fixée, tels que :
1. la probabilité de l’événement est la même à chaque instant,
2. les événements sont indépendants les uns des autres
(processus sans mémoire).
Représentation graphique
P(9)
0.08
0.00
10
15
20
0
P(18)
Probabilités
10
15
P(14)
0.04
5
10
Nombres
0.00
0
5
Nombres
15
Nombres
20
25
30
20
0.00 0.02 0.04 0.06 0.08
5
0.08
0
Probabilités
0.04
Probabilités
0.10
0.05
0.00
Probabilités
0.15
0.12
P(5)
0
5
10
15
20
Nombres
25
30
35
Moments
Espérance µ est simplement le paramètre de moyenne (nombre
moyen d’apparitions par unité de temps).
Variance Dans une loi de Poisson, la variance est égale à la
moyenne : σ 2 = µ. Cela signifie que les comptages
des événements fréquents varient plus que ceux des
événements rares.
Modèle de régression
I
La contrainte d’une probabilité constante dans un processus
poissonien peut être relaxée sous la forme d’un modèle de
régression qui place le comptage moyen sous la dépendance de
variables explicatives dans un modèle exponentiel :
µ = exp(β0 + β1 X )
ce qui garantit qu’il sera toujours positif.
Atelier 2.1 : évolution du nombre de crises d’épilepsie
I
On étudie chez un sujet le nombre de crises d’épilepsie au
cours du temps sur 140 jours 1 . Les données sont dans le
fichier epilepsie.csv.
I
A partir du 28ème jour, on met en place un traitement par
injection intraveineuse de gamma-globuline.
I
Question : diriez-vous que le nombre de crises a diminué avec
le traitement ?
1. P. Wang, M. Puterman, I. Cockburn, and N. Le (1996). Mixed poisson
regression models with covariate dependent rates. Biometrics, 52, 381-400 .
Notion de ligne de base
I
Testez un premier modèle constant M0 du débit des crises.
I
Testez un second modèle M1 de l’évolution temporelle
décroissante du nombre de crises, sans prendre en compte la
date d’introduction du traitement.
I
Testez les deux modèles M2 et M3 incluant l’effet de la
phase AVANT/APRES traitement, avec effet sur β0 seulement
puis sur β0 et β1 .
Utilisation de variables indicatrices
I
Dans l’onglet « Données », ouvrez le panneau de
transformation et recodage de variables, et créez une variable
indicatrice à partir de la variable PHASE :
Avec PHASE, AVANT=0 ; PENDANT=1, Stocker dans Pendant
I
Testez un modèle M4 supposant que le nombre de crises était
constant avant l’introduction du traitement, mais a diminué
ensuite :
Crises~1+Pendant+(Jour:Pendant)
I
Cette syntaxe ne laisse l’effet du temps s’exprimer que pour les
mesures pendant traitement. Pour les autres, seul un effet
d’intercept s’exprime.
Test de la déviation à une ligne de base
Traitement du tabagisme par hypnose
I
On lit parfois dans les magazines que l’hypnose est efficace
pour aider à l’arrêt du tabac. En réalité, les résultats dans la
littérature clinique expérimentale sont extrêmement
variables.
I
La difficulté pour affirmer l’efficacité d’un traitement est de
pouvoir séparer dans le résultat ce qui relève de l’ingrédient
supposé du traitement (ici l’hypnose) et d’éventuelles
variables confondues (niveau de consommation initiale,
motivation, contexte historique et familial, etc.).
I
Pour montrer que l’hypnose est efficace en tant que telle, il
faut pouvoir montrer que ses effets ne sont pas explicables par
d’autres facteurs.
Une étude
I
Nous avons étudié (Noël, 1996) les résultats d’un traitement
par hypnose en 3 séances sur 111 sujets.
I
On enregistre :
I
Des variables démographique : l’âge et le sexe,
I
Des variables liées à la consommation : nombre de cigarettes
par jour et dépendance au tabac (Fagerström, 1978).
I
l’hypnotisabilité (échelle standardisée de Stanford),
I
Des variables psychologiques d’attitude à l’égard du tabac :
l’auto-efficacité (confiance dans sa capacité à faire face au
manque), la charge émotionnelle négative associée au
tabagisme (peur du cancer par exemple), et la maturité de la
décision d’arrêter, selon le modèle en stades de changement
(Noël, 1999).
I
Des variables de résultat : arrêt complet du tabac en fin de
traitement, puis à 3 mois.
Nature des données collectées
I
La variable dépendante est binaire (succès/échec).
I
Sa distribution ne peut être approchée par une loi normale.
I
On utilise une loi binomiale B(1, π) ou loi de Bernoulli.
Atelier 3.1
I
Charger sous R2STATS le fichier hypnose.csv.
I
Compte tenu de la nature binaire de la VD de résultat
(variable FIN dans le fichier), sélectionner un modèle de
distribution binomial.
I
La nature bornée de cette variable rend inappropriée une
fonction de régression linéaire.
I
Pour le voir, tester un modèle complet Mc incluant tous les
prédicteurs potentiels du fichier, et observez la forme de la
fonction de régression sur le graphique.
I
Examinez les coefficients du modèle et les tests associés
(invalides !).
Notion de fonction de réponse logistique
Découverte de la fonction logistique
0.8
0.6
0.0
0.2
0.4
Réponse
0.6
0.4
0.0
0.2
Réponse
0.8
1.0
β0 = − 1 β1 = 1
1.0
β0 = 0 β1 = 1
−4
−2
0
2
4
−4
−2
X
2
4
X
β0 = 0 β1 = 3
1
0.6
0.8
1.0
2
exp(β0 + β1X)
1 + exp(β0 + β1X)
0.2
0.4
^=
π
0.0
0.2
0.4
Réponse
0.6
0.8
1.0
β0 = 1 β1 =
0.0
Réponse
0
−4
−2
0
X
2
4
−4
−2
0
X
2
4
Objectifs de la modélisation
I
Si l’on veut évaluer l’impact propre de l’hypnose, il convient
d’écarter toute influence des covariables éventuelles : celles-ci
doivent être entrées dans le modèle en premier.
I
Pour des raisons d’interprétation finale cependant, on est
également guidé par la préoccupation théorique d’avoir à
entrer dans le modèle 3 classes de variables : i) les variables
de motivation/décision, ii) les variables de
consommation/dépendance, et iii) l’hypnotisabilité
(nécessairement en dernier).
I
Au sein des deux premiers sous-groupes cependant, on peut
être amené à choisir seulement certaines variables, s’il y a
redondance dans l’explication de la déviance de résultat.
Variables de consommation
I
Estimez le paramètre de probabilité du modèle constant M0 .
I
Testez ensuite le modèle M1 avec pour seul prédicteur la
expression émotionnelle négative (variable EXP).
I
Ajoutez la variable de dépendance FAG12 dans un modèle M2
et provoquez la comparaison des trois modèles. Qu’en
pensez-vous ?
I
Reprenez les deux dernières étapes en créant deux modèles
M1 bis et M2 bis inversant simplement l’ordre d’entrée des
variables. Que se passe-t-il ?
Approche bottom-up
I
Dans ce contexte où de nombreuses variables partagent une
variance expliquée commune, on cherche à entrer en premier
les variables les plus explicatives pour obtenir un modèle aussi
simple que possible.
I
Testez contre le modèle M0 constant tous les modèles à une
seule variable et examinez leur déviance expliquée :
Variable
EXP
FAG12
STADE
CRS
SEXE
Dév. expliquée
5.8945
4.1870
3.4661
3.3155
2.8186
Variable
TADD
AGE
BASE
SHSS
Dév. expliquée
2.6016
2.5718
1.2425
1.1361
Modèle final
I
Aucune autre variable entrée dans le modèle après EXP
n’amènera d’amélioration substantielle.
I
Ce résultat contraste avec ce qu’on aurait pu penser si on
s’était appuyé sur les tests sur coefficients dans le modèle
complet.
Psychologie statistique avec R
Pour aller plus loin...
0741 couv Noel R
2/11/12
10:39
Page 1
Pratique R
Yvonnick Noël
La collection « Pratique R » répond
à cette évolution récente et propose
d'intégrer pleinement l'utilisation
de R dans des ouvrages couvrant
les aspects théoriques et pratiques
des diverses méthodes statistiques
appliquées à des domaines aussi
variés que l'analyse de données,
la gestion des risques, les sciences
médicales, l'économie, etc.
Elle s'adresse aux étudiants,
enseignants, ingénieurs, praticiens
et chercheurs de ces différents
domaines qui utilisent quotidiennement des données dans leur travail
et qui apprécient le logiciel R pour
sa fiabilité et son confort
d'utilisation.
30 € TTC
ISBN : 978-2-8178-0424-8
› springer.com
Cet ouvrage couvre un programme complet de statistique pour
la licence de psychologie (L1 à L3), depuis les bases élémentaires
de combinatoire et de probabilités jusqu'aux modèles élaborés
permettant de mettre à l'épreuve des hypothèses psychologiques.
Présentés à partir de données réelles, les modèles étudiés sont
facilement applicables dans les champs divers de la psychologie
(cognition,cognition sociale,développement de l'enfant,psychologie
de la santé, psychologie du travail, psychocriminologie...). La mise
en œuvre pratique des procédures est développée dans des exercices
types présentés en un format unique, de la définition du problème
statistique à la conclusion psychologique.
La démarche adoptée par l'auteur est celle de la comparaison de
modèles. Chaque situation à modéliser fait d'abord l'objet d'hypothèses psychologiques, traduites sous forme de modèles, parmi
lesquels on cherche le meilleur en termes de qualité d'ajustement
et de parcimonie.
Cette démarche de sélection de modèles est illustrée aussi bien
avec les outils fishériens traditionnels (la valeur p), qu'avec les outils
les plus récents de la statistique bayésienne (le facteur de Bayes).
Les dernières recommandations de l'American Psychological
Association en matière d'analyse, notamment l'inférence directe sur
les tailles d'effet, ont été intégrées. À ce titre, l'ouvrage intéressera
autant l'étudiant que le chercheur désireux de s'initier à ces nouveaux
outils.
Deux librairies spécialisées pour R (R2STATS et AtelieR), librement
téléchargeables en ligne et dotées d'une interface graphique,
permettent de retrouver facilement tous les résultats numériques
présentés dans les exemples.
Yvonnick Noël est Maître de Conférences en Psychologie et Statistiques à
l'Université européenne de Bretagne (Rennes 2).
Yvonnick Noël
Noël
Pratique R
Performant, évolutif, libre, gratuit
et multiplateformes, le logiciel R
s'est imposé depuis une dizaine
d'années comme un outil de calcul
statistique incontournable, tant
dans les milieux académiques
qu'industriels.
Psychologie
statistique avec R
Psychologie statistique avec R
Collection
Psychologie
statistique avec R
Téléchargement