Atelier de statistique AFPSA, Villeneuve d’Ascq Yvonnick Noël Université de Rennes 2 2012 Sommaire Introduction L’analyse des données test-retest [un modèle gaussien] Notions de base en régression linéaire gaussienne Principe de l’analyse par régression des données test-retest Application à l’analyse de l’efficacité comparée de trois protocoles La régression sur le temps [un modèle poissonien] Processus poissonien Modèle de régression sur un comptage sans borne supérieure La prédiction du succès d’une intervention [un modèle binomial] La loi binomiale Modèle de régression sur un comptage borné Types de variables dépendantes I Stevens (1944) a introduit en psychologie les distinctions suivantes : Structure Nominale Ordinale Intervalle Rapport Variables Qualitatives (noms) Quantitatives (nombres) Propriété Pas d’ordre Ordre Pas de zéro Zéro absolu Exemple Sexe Réponse graduée Température Temps de réaction Questions subsidiaires Nous affinons ces distinctions pour pouvoir choisir un modèle de distribution : 1. Le nombre de leurs modalités est-il fini ou infini ? 2. Sont-elles de nature discrète (en nombres entiers) ou continue (en nombres décimaux) ? 3. Ont-elles une borne inférieure ? ou supérieure ? Ou les deux ? Types de données à partir de VD qualitatives 1. Comptages bornés à gauche et à droite 1.1 Exemple : nombre de bonnes réponses dans un test cognitif à 10 items. 1.2 U = {0, 1, 2, ..., 10}. 2. Comptages non bornés à droite 2.1 Exemple : nombre d’actes agressifs enregistrés sur un jeune enfant observé en crèche pendant une journée. 2.2 U = {0, 1, 2, 3, ...}. Types de données à partir des VD quantitatives 1. Mesures physiques bornées à gauche et non bornées à droite 1.1 Exemple : temps de réaction. 1.2 U = [0; +∞[. 2. Mesures physiques non bornées 2.1 Exemple : différence entre deux temps de réaction (IAT) 2.2 U =] − ∞; +∞[. Modèle de distribution Pour chacun de ces 4 types de données, nous utilisons un modèle de distribution différent pour la variable dépendante. Définition On appelle modèle de distribution pour une variable X une fonction f mathématique associant à toute modalité x de X leur (densité de) probabilité d’apparition f (x). La forme de cette distribution est modulée par un ou plusieurs paramètres qui peuvent faire l’objet d’hypothèses psychologiques. Arbre de décision Notion de modèle linéaire généralisé Prestige d’une profession et instruction I Nous nous intéressons à la question de savoir si le prestige social associé à une profession peut être déterminé par le niveau d’études. I Si on note Y la variable qui est objet d’étude (le prestige), et X la variable explicative supposée (le niveau d’étude), le plus simple de tous les modèles de relation est le modèle linéaire ou proportionnel : Ŷ = β0 + β1 X avec β0 et β1 deux nombres inconnus ou paramètres structuraux du modèle. 80 Graphe de relation linéaire 40 0 20 Prestige 60 Y = 5X Y = 5X−10 0 5 10 15 Niveau d’étude Interprétation des paramètres Dans un modèle général de la forme Y = β0 + β1 X : I Y = β0 quand X = 0. I I Le paramètre β0 a donc le sens d’être le niveau de base en prestige pour 0 année d’étude. Pour X = 1, 2, 3 (etc.), on voit que Ŷ prend les valeurs β0 + β1 , β0 + 2β1 et β0 + 3β1 (etc.). I Le paramètre β1 a donc le sens de l’accroissement en Y pour un accroissement unité sur X . Remarque : le modèle peut aussi être réécrit sous la forme Y = β0 1 + β1 X , ou le symbole 1 représente une « variable » prenant toujours la valeur 1. Atelier 1.1 Chargez la librairie R2STATS sous R. Sous l’onglet « Fichier », sous-onglet « Librairie », sélectionnez « car > Prestige » : Examen des données Estimation du modèle Représentation graphique Notion d’erreur I Nous avons supposé une relation de proportionnalité entre éducation et prestige mais nous voyons que cette relation n’est pas exacte. I Par exemple : I D’après la feuille de résultats, R2STATS représente une droite d’équation Y = −10.732 + 5.361X . I Deux points ont exactement même abscisse X = 9.93, mais deux ordonnées différentes : Y1 = 23.3 et Y2 = 50.2. Il y a donc un écart entre la valeur modèle Y = −10.732 + (5.361 × 9.93) = 42.50153 et les données observées. Variance conditionnelle Composante aléatoire I Nous voyons bien qu’un modèle mathématique de la forme Y = β0 + β1 X se trompe. I Pour une valeur X = x fixée, nous pouvons avoir Y = y1 , y2 , ... I On appelle résidu de l’observation i (i = 1, ..., N) la valeur d’erreur ei = yi − (β0 + β1 xi ). Modèle statistique I Pour bien distinguer ce que l’on observe de ce que prévoit le modèle, on note Ŷ la prévision faite par le modèle. I Données empiriques et prévision du modèle sont réunies par la relation : Y = Ŷ + = (β0 + β1 X ) + Score = Prévision + Résidu (Fixe) (Aléatoire) I Nous ne savons pas prévoir les valeurs que prendra , mais nous pouvons poser sur elle une hypothèse de distribution. Choix d’un modèle de distribution Pour modéliser la distribution de l’erreur, deux propriétés semblent désirables : 1. On s’attend à ce que notre modèle se trompe autant en surestimation (résidu positif) qu’en sous-estimation (résidu négatif) : la distribution devrait donc être symétrique par rapport à 0. 2. On s’attend à ce que les erreurs très larges (en valeur absolue) soit plus rares que les erreurs petites : la distribution devrait donc être unimodale. La loi normale est un candidat possible dans ce contexte. Hypothèse de normalité Interprétation de Ŷ I Si nous choisissons un modèle unimodal et symétrique de distribution de l’erreur, quelle signification statistique va prendre Ŷ pour toutes les observations qui ont même X ? I On voit que le modèle structural peut être réécrit : E (Y |X = x) = β0 + β1 x I On appelle modèle de régression tout modèle structural sur une espérance conditionnelle. I Le modèle complet peut donc s’écrire : Y |X ∼ N(β0 + β1 X , σ 2 ) Atelier 1.2 1. Charger sous R2STATS le fichier http://yvonnick.noel.free.fr/data/colere.csv. Les variables sont deux mesures d’humeur (F. Février, 2012), sur une échelle bipolaire (une valeur négative indique une humeur négative). L’humeur a été évaluée avant et après avoir vu un film sur la corruption et le traffic d’armes dans le monde. 2. On cherche à savoir si le visionnage de ce film produit une variation significative de l’humeur du sujet (dans un sens négatif bien sûr). Questions I On appelle X et Y les variables « humeur au prétest » et « humeur au post-test » respectivement. I Représentez graphiquement et interprétez psychologiquement les modèles de régression suivants : I I I I M0 : Ŷ = X M1 : Ŷ = β0 + X M2 : Ŷ = β0 + β1 X Testez et comparez ces 3 modèles sous R2STATS (les boutons FIXEE et +0 permettent de fixer une pente à 1 et une ordonnée à l’origine à 0). Examinez les graphiques en cochant l’option « droite de référence ». Traitement de l’anorexie par trois méthodes I Dans une étude de suivi de 72 patientes anorexiques en milieu hospitalier, on enregistre les poids (en livres) avant et après traitement (suivi 3 mois) de 3 groupes indépendants de jeunes femmes, suivies respectivement en : I I I hospitalisation classique, hospitalisation + thérapie cognitive-comportementale, hospitalisation + thérapie familiale. Modèles de base I Testez successivement les modèles M1 , M2 et M3 de : I I I I l’absence d’évolution des poids, l’évolution des poids identique en moyenne pour toutes, l’évolution des poids différentes en moyenne, sous la dépendance du poids initial. Quel est le meilleur modèle ? Les hypothèses du modèle sont-elles acceptables ? Modèle sans groupes Modèles de groupe I Testez les modèles M3 et M4 qui intègre le type de traitement : I I I d’abord de façon additive (seule l’amplitude de la prise de poids diffère d’un groupe à l’autre), puis en interaction avec le poids initial (la dépendance au poids initial n’est pas la même selon les conditions). Quel est le meilleur modèle ? Que signifie-t-il ? Les hypothèses du modèle sont-elles acceptables ? Modèle de l’évolution distincte par condition Modèles non-linéaires I Activez l’option Lissage dans les graphiques : que remarquez-vous ? I Comment interpréter le résultat du lissage ? I Suggérez une amélioration du modèle. I Utilisez la fonction poly(,2) pour construire le polynôme correspondant dans un modèle M5 . Modèle final retenu La loi de Poisson I La loi de Poisson univariée simple est la loi d’un comptage d’événements pendant une période de temps fixée, tels que : 1. la probabilité de l’événement est la même à chaque instant, 2. les événements sont indépendants les uns des autres (processus sans mémoire). Représentation graphique P(9) 0.08 0.00 10 15 20 0 P(18) Probabilités 10 15 P(14) 0.04 5 10 Nombres 0.00 0 5 Nombres 15 Nombres 20 25 30 20 0.00 0.02 0.04 0.06 0.08 5 0.08 0 Probabilités 0.04 Probabilités 0.10 0.05 0.00 Probabilités 0.15 0.12 P(5) 0 5 10 15 20 Nombres 25 30 35 Moments Espérance µ est simplement le paramètre de moyenne (nombre moyen d’apparitions par unité de temps). Variance Dans une loi de Poisson, la variance est égale à la moyenne : σ 2 = µ. Cela signifie que les comptages des événements fréquents varient plus que ceux des événements rares. Modèle de régression I La contrainte d’une probabilité constante dans un processus poissonien peut être relaxée sous la forme d’un modèle de régression qui place le comptage moyen sous la dépendance de variables explicatives dans un modèle exponentiel : µ = exp(β0 + β1 X ) ce qui garantit qu’il sera toujours positif. Atelier 2.1 : évolution du nombre de crises d’épilepsie I On étudie chez un sujet le nombre de crises d’épilepsie au cours du temps sur 140 jours 1 . Les données sont dans le fichier epilepsie.csv. I A partir du 28ème jour, on met en place un traitement par injection intraveineuse de gamma-globuline. I Question : diriez-vous que le nombre de crises a diminué avec le traitement ? 1. P. Wang, M. Puterman, I. Cockburn, and N. Le (1996). Mixed poisson regression models with covariate dependent rates. Biometrics, 52, 381-400 . Notion de ligne de base I Testez un premier modèle constant M0 du débit des crises. I Testez un second modèle M1 de l’évolution temporelle décroissante du nombre de crises, sans prendre en compte la date d’introduction du traitement. I Testez les deux modèles M2 et M3 incluant l’effet de la phase AVANT/APRES traitement, avec effet sur β0 seulement puis sur β0 et β1 . Utilisation de variables indicatrices I Dans l’onglet « Données », ouvrez le panneau de transformation et recodage de variables, et créez une variable indicatrice à partir de la variable PHASE : Avec PHASE, AVANT=0 ; PENDANT=1, Stocker dans Pendant I Testez un modèle M4 supposant que le nombre de crises était constant avant l’introduction du traitement, mais a diminué ensuite : Crises~1+Pendant+(Jour:Pendant) I Cette syntaxe ne laisse l’effet du temps s’exprimer que pour les mesures pendant traitement. Pour les autres, seul un effet d’intercept s’exprime. Test de la déviation à une ligne de base Traitement du tabagisme par hypnose I On lit parfois dans les magazines que l’hypnose est efficace pour aider à l’arrêt du tabac. En réalité, les résultats dans la littérature clinique expérimentale sont extrêmement variables. I La difficulté pour affirmer l’efficacité d’un traitement est de pouvoir séparer dans le résultat ce qui relève de l’ingrédient supposé du traitement (ici l’hypnose) et d’éventuelles variables confondues (niveau de consommation initiale, motivation, contexte historique et familial, etc.). I Pour montrer que l’hypnose est efficace en tant que telle, il faut pouvoir montrer que ses effets ne sont pas explicables par d’autres facteurs. Une étude I Nous avons étudié (Noël, 1996) les résultats d’un traitement par hypnose en 3 séances sur 111 sujets. I On enregistre : I Des variables démographique : l’âge et le sexe, I Des variables liées à la consommation : nombre de cigarettes par jour et dépendance au tabac (Fagerström, 1978). I l’hypnotisabilité (échelle standardisée de Stanford), I Des variables psychologiques d’attitude à l’égard du tabac : l’auto-efficacité (confiance dans sa capacité à faire face au manque), la charge émotionnelle négative associée au tabagisme (peur du cancer par exemple), et la maturité de la décision d’arrêter, selon le modèle en stades de changement (Noël, 1999). I Des variables de résultat : arrêt complet du tabac en fin de traitement, puis à 3 mois. Nature des données collectées I La variable dépendante est binaire (succès/échec). I Sa distribution ne peut être approchée par une loi normale. I On utilise une loi binomiale B(1, π) ou loi de Bernoulli. Atelier 3.1 I Charger sous R2STATS le fichier hypnose.csv. I Compte tenu de la nature binaire de la VD de résultat (variable FIN dans le fichier), sélectionner un modèle de distribution binomial. I La nature bornée de cette variable rend inappropriée une fonction de régression linéaire. I Pour le voir, tester un modèle complet Mc incluant tous les prédicteurs potentiels du fichier, et observez la forme de la fonction de régression sur le graphique. I Examinez les coefficients du modèle et les tests associés (invalides !). Notion de fonction de réponse logistique Découverte de la fonction logistique 0.8 0.6 0.0 0.2 0.4 Réponse 0.6 0.4 0.0 0.2 Réponse 0.8 1.0 β0 = − 1 β1 = 1 1.0 β0 = 0 β1 = 1 −4 −2 0 2 4 −4 −2 X 2 4 X β0 = 0 β1 = 3 1 0.6 0.8 1.0 2 exp(β0 + β1X) 1 + exp(β0 + β1X) 0.2 0.4 ^= π 0.0 0.2 0.4 Réponse 0.6 0.8 1.0 β0 = 1 β1 = 0.0 Réponse 0 −4 −2 0 X 2 4 −4 −2 0 X 2 4 Objectifs de la modélisation I Si l’on veut évaluer l’impact propre de l’hypnose, il convient d’écarter toute influence des covariables éventuelles : celles-ci doivent être entrées dans le modèle en premier. I Pour des raisons d’interprétation finale cependant, on est également guidé par la préoccupation théorique d’avoir à entrer dans le modèle 3 classes de variables : i) les variables de motivation/décision, ii) les variables de consommation/dépendance, et iii) l’hypnotisabilité (nécessairement en dernier). I Au sein des deux premiers sous-groupes cependant, on peut être amené à choisir seulement certaines variables, s’il y a redondance dans l’explication de la déviance de résultat. Variables de consommation I Estimez le paramètre de probabilité du modèle constant M0 . I Testez ensuite le modèle M1 avec pour seul prédicteur la expression émotionnelle négative (variable EXP). I Ajoutez la variable de dépendance FAG12 dans un modèle M2 et provoquez la comparaison des trois modèles. Qu’en pensez-vous ? I Reprenez les deux dernières étapes en créant deux modèles M1 bis et M2 bis inversant simplement l’ordre d’entrée des variables. Que se passe-t-il ? Approche bottom-up I Dans ce contexte où de nombreuses variables partagent une variance expliquée commune, on cherche à entrer en premier les variables les plus explicatives pour obtenir un modèle aussi simple que possible. I Testez contre le modèle M0 constant tous les modèles à une seule variable et examinez leur déviance expliquée : Variable EXP FAG12 STADE CRS SEXE Dév. expliquée 5.8945 4.1870 3.4661 3.3155 2.8186 Variable TADD AGE BASE SHSS Dév. expliquée 2.6016 2.5718 1.2425 1.1361 Modèle final I Aucune autre variable entrée dans le modèle après EXP n’amènera d’amélioration substantielle. I Ce résultat contraste avec ce qu’on aurait pu penser si on s’était appuyé sur les tests sur coefficients dans le modèle complet. Psychologie statistique avec R Pour aller plus loin... 0741 couv Noel R 2/11/12 10:39 Page 1 Pratique R Yvonnick Noël La collection « Pratique R » répond à cette évolution récente et propose d'intégrer pleinement l'utilisation de R dans des ouvrages couvrant les aspects théoriques et pratiques des diverses méthodes statistiques appliquées à des domaines aussi variés que l'analyse de données, la gestion des risques, les sciences médicales, l'économie, etc. Elle s'adresse aux étudiants, enseignants, ingénieurs, praticiens et chercheurs de ces différents domaines qui utilisent quotidiennement des données dans leur travail et qui apprécient le logiciel R pour sa fiabilité et son confort d'utilisation. 30 € TTC ISBN : 978-2-8178-0424-8 › springer.com Cet ouvrage couvre un programme complet de statistique pour la licence de psychologie (L1 à L3), depuis les bases élémentaires de combinatoire et de probabilités jusqu'aux modèles élaborés permettant de mettre à l'épreuve des hypothèses psychologiques. Présentés à partir de données réelles, les modèles étudiés sont facilement applicables dans les champs divers de la psychologie (cognition,cognition sociale,développement de l'enfant,psychologie de la santé, psychologie du travail, psychocriminologie...). La mise en œuvre pratique des procédures est développée dans des exercices types présentés en un format unique, de la définition du problème statistique à la conclusion psychologique. La démarche adoptée par l'auteur est celle de la comparaison de modèles. Chaque situation à modéliser fait d'abord l'objet d'hypothèses psychologiques, traduites sous forme de modèles, parmi lesquels on cherche le meilleur en termes de qualité d'ajustement et de parcimonie. Cette démarche de sélection de modèles est illustrée aussi bien avec les outils fishériens traditionnels (la valeur p), qu'avec les outils les plus récents de la statistique bayésienne (le facteur de Bayes). Les dernières recommandations de l'American Psychological Association en matière d'analyse, notamment l'inférence directe sur les tailles d'effet, ont été intégrées. À ce titre, l'ouvrage intéressera autant l'étudiant que le chercheur désireux de s'initier à ces nouveaux outils. Deux librairies spécialisées pour R (R2STATS et AtelieR), librement téléchargeables en ligne et dotées d'une interface graphique, permettent de retrouver facilement tous les résultats numériques présentés dans les exemples. Yvonnick Noël est Maître de Conférences en Psychologie et Statistiques à l'Université européenne de Bretagne (Rennes 2). Yvonnick Noël Noël Pratique R Performant, évolutif, libre, gratuit et multiplateformes, le logiciel R s'est imposé depuis une dizaine d'années comme un outil de calcul statistique incontournable, tant dans les milieux académiques qu'industriels. Psychologie statistique avec R Psychologie statistique avec R Collection Psychologie statistique avec R