Faculté de psychologie et Institut de Statistique Université Catholique de Louvain LPSP1209 : STATISTIQUE II INFERENCE SUR UNE OU DEUX VARIABLES Syllabus d’exercices Auteurs : Bernadette Govaerts Cedric Taverne Titulaire : Bernadette Govaerts LPSP 1209 – Syllabus d’exercices / Version 2015 1 Introduction Ce syllabus accompagne l’étudiant durant les TP réalisés « en salle » dans le cadre du cours LPSP1209 – Statistique : Inférence sur une ou deux variables. Le syllabus est organisé en chapitres correspondant aux séances de TP et aux échéances intermédiaires. Veuillez vous référencer à l’échéancier disponible sur iCampus pour connaître les exercices à réaliser obligatoirement. Table des matières Exercices de manipulation des tables.................................................................................................. 3 TP 1 – Calcul et manipulation de probabilité ..................................................................................... 5 TP 2 – V.A. normale, binomiale et TCL ............................................................................................. 8 TP 3 – Exercices d’intégration de probabilité ................................................................................... 21 Etude de cas de probabilité ............................................................................................................... 23 TP 4 – Principes d’inférence sur une population normale ................................................................ 24 TP 5 – Tests et intervalles sur deux populations normales ............................................................... 26 Etude de cas d’inférence sur une ou deux population(s) normale(s) ................................................ 30 TP 6 – Inférence sur une ou deux variable(s) catégorielle(s) ........................................................... 31 TP 7 – Inférence non-paramétrique et sur un coefficient de corrélation .......................................... 35 Exercices d’intégration sur l’inférence ............................................................................................. 40 Exercices supplémentaires sur les probabilités ................................................................................. 43 Exercices supplémentaires sur l’inférence ........................................................................................ 49 LPSP 1209 – Syllabus d’exercices / Version 2015 2 Exercices de manipulation des tables 1. Probabilité sur une variable aléatoire normale réduite Soit Z une variable aléatoire (v.a.) normale réduite, Z ~ N(0,1). Calculez : a) P (Z ≤ 1.29) = d) P (Z ≥ 1.29) = b) P (Z < 1.29) = e) P (Z ≥ -1.29) = c) P (Z = 1.29) = f) P (-1.29 ≤ Z ≤ 1.29) = 2. Quantile de la variable aléatoire normale réduite Soit Z une v.a. normale réduite, Z ~ N(0,1). Calculez la valeur de z telle que : a) P (Z ≤ z) = 0.975 d) P (Z ≤ z) = 0.1 b) P (Z ≥ z) = 0.95 e) P (Z > z) = 0.01 c) P (-z ≤ Z ≤ z) = 0.95 3. Probabilité sur une variable aléatoire normale générale Soit X une v.a. N (100, 225) qui correspond à la distribution du QI dans la population. Calculez : a) P (X = 89) = d) P (X ≤ 95) = b) P (X >130) = e) P (85 < X < 115) = c) P (X < 95) = 4. Probabilité sur une variable aléatoire binomiale à l’aide de la table Soit X une v.a. Bi (25 ; 0,4). Calculez à l’aide de la table : a) P (X < 8) = d) P (X ≥ 8) = b) P (X = 11) = e) P (10 < X < 13) = c) P (X > 8) = 5. Probabilité sur une variable aléatoire binomiale à l’aide de la méthode exacte Soit X une v.a. Bi(23;0,2). Calculez à l’aide de la méthode exacte : a) P (X = 4) = b) P (X ≥ 1) = 6. Binomiale en grand échantillon Soit X une v.a. Bi (250;0.4), approximez les probabilités suivantes à l’aide des tables et calculez le résultat exact à l’aide d’Excel. a) P(X ≤ 80) d) P(X = 110) b) P(X < 80) e) P(X < 81) c) P(X ≥130) f) P(70 ≤ X < 140) 7. Recherche de quantiles (ou seuils critiques) Soit une variable aléatoire Normale réduite N(0,1) : a) quelle est la valeur de x telle que P(X < x) = 0.975. b) quelle est la valeur de x telle que P(X < x) = 0.05. c) quelle est la valeur de x telle que P(X > x) = 0.1 Soit une variable aléatoire T de Student à 15 degrés de liberté : d) quelle est la valeur de x telle que P(X < x) = 0.975. e) quelle est la valeur de x telle que P(X < x) = 0.05. LPSP 1209 – Syllabus d’exercices / Version 2015 3 f) quelle est la valeur de x telle que P(X > x) = 0.1 Soit une variable aléatoire chi-carré à 20 degrés de liberté : g) quelle est la valeur de x telle que P(X < x) = 0.975. h) quelle est la valeur de x telle que P(X < x) = 0.05. i) quelle est la valeur de x telle que P(X > x) = 0.1 Soit une variable aléatoire F de Fischer à 10 et 20 degrés de liberté : j) quelle est la valeur de x telle que P(X < x) = 0.975 k) quelle est la valeur de x telle que P(X < x) = 0.95. l) quelle est la valeur de x telle que P(X < x) = 0.05. m) quelle est la valeur de x telle que P(X > x) = 0.01 Soient n = 16, m = 21 et α = 0.05. Calculez les percentiles suivants (vous les avez déjà en principe calculés dans les exercices précédents). n) z1- /2 et z p) χ2m-1,1- /2 et χ2m-1, o) tn-1,1- /2 et tn-1, q) Fn-1,m-1,1- et Fn-1,m-1, α α α α α α α α 8. Recherche de p-valeurs Calculez ou donnez un intervalle dans lequel se trouvent les probabilités suivantes : a) P (Z > 2.8) où Z est une N(0,1) g) P (χ²10 > 24). b) P (Z > -0.5) h) P (χ²10 < 3). c) P (|Z| > 1.4) i) P (χ²30 > 55). d) P (t30 ≥ 2.45). j) P(F10,15>2.54) e) P (t30 > 4). k) P(Bi(8,0.2)=5) f) P (|t30| > 1). l) P(Bi(7,0.2)>6) 9. Exercice mélangé Calculez : a) P(t18 > 1.33) b) x tel que P(F10,20 ≥ x ) = 0.025 c) z tel que P(Z ≤ z) = -­‐ 0.12 d) P(Z ≤ -0.12) LPSP 1209 – Syllabus d’exercices / Version 2015 ! e) ! !!" ≥ 19.37 f) n tel que ! !" !, 0.1 ≤ 1 g) ! !" 210,0.9 ≥ 200 4 TP 1 – Calcul et manipulation de probabilité Exercices à préparer chez soi 10. Manipulation d’événements et dénombrement On s’intéresse aux profils des 500 étudiants de BAC 1en psychologie. Les variables récoltées concernent : leur sexe, leur nationalité et le fait qu’ils kotent ou pas. On observe que parmi les 400 filles, 300 kotent et 60 sont étrangères. Par ailleurs, un garçon sur deux kote et 10 garçons sur l’ensemble sont étrangers. On constate aussi que tous les étudiants étrangers kotent. On définit les évènements suivants à propos d’un étudiant choisi (au hasard) dans l’ensemble des 500 étudiants : F : L’étudiant est une fille B : L’étudiant est belge K : L’étudiant kote a) Complétez le nombre d’étudiants dans chaque cellule des tableaux croisés ci-dessous. Belge Etranger Total Fille Garçon Total Kote Ne kote pas Total Fille Garçon Total b) Décrivez en français la catégorie d’étudiants concernée par chaque événement suivant et dites à combien d’étudiants elle correspond : • B • B∩K • F C∩B C ∩K C C • F • (F∪K) c) Ecrivez à quelle combinaison des événements B, F et K correspondent les événements suivants : • L’étudiant(e) ne kote pas • L’étudiant(e) est étranger et de sexe masculin • L’étudiant(e) est une fille belge ou un garçon étranger • L’étudiant(e) n’est pas une fille belge qui kote. d) Sur base des données disponibles, calculez les probabilités suivantes : • Probabilité qu’un(e) étudiant(e) ne kote pas • Probabilité qu’un(e) étudiant(e) soit étranger et ne kote pas • Probabilité qu’un(e) étudiant(e) soit une fille belge qui kote Exercices réalisés durant le TP 11. Calcul de probabilité par combinatoire Si on tire au hasard 4 cartes d'un jeu de 52 cartes : a) Quelle est la probabilité de n'avoir que des piques ? b) Quelle est la probabilité d'avoir les 4 as ? c) Quelle est la probabilité d'avoir exactement 3 as ? d) Quelle est la probabilité d'avoir exactement un as, un roi, une dame et un valet ? e) Quelle est la probabilité d’avoir un as, un roi, une dame et un valet si on sait que toutes les cartes tirées sont des piques ? LPSP 1209 – Syllabus d’exercices / Version 2015 5 12. Probabilité conditionnelle, probabilité totale et formule de Bayes Un test rapide mais non totalement fiable pour détecter le sida a été mis au point. Ce test détecte le virus quand il est présent dans 80 % des cas et indique qu’il n’est pas présent quand il ne l’est effectivement pas dans 90 % des cas. On étudie une population à risque dans laquelle 40 % des personnes sont atteintes. On définit les événements : P : le résultat du test est positif V : le malade est atteint du virus. a) Exprimez les proportions ci-dessus en termes de probabilités sur ces deux événements. b) Quelle est la probabilité qu’une personne prise au hasard réagisse positivement au test et soit réellement porteuse du virus ? c) Quelle est la probabilité qu’une personne prise au hasard réagisse négativement au test ? d) Sur base des données disponibles et de ce que vous avez calculé précédemment, pensez-vous que les deux événements définis ci-dessus sont indépendants ? Justifiez par calcul. e) Quelle est la probabilité qu’une personne qui réagisse positivement au test soit effectivement porteuse du virus ? 13. Variable aléatoire discrète Soit X une variable aléatoire discrète qui représente le gain à un jeu de hasard. Les valeurs possibles de X et les probabilités associées sont : xi -1 0 1 2 pi 1/2 1/8 1/4 1/8 a) Calculez l’espérance mathématique de X. Interprétez ce résultat. b) Calculez la P(X≤0), P(X<0), P(X=2|X≥0) c) Calculez la probabilité de gagner à ce jeu. Exercices supplémentaires en lien avec la matière du chapitre 14. Manipulation d’événements Dans un jeu de 52 cartes, on tire une carte au hasard. On définit les événements ``la carte tirée est:" A : un pique D : un roi ou un coeur B : un valet E : une carte rouge C : un honneur F : une figure a) Exprimez en français ce que les événements suivants signifient. E1= B ∩ D E4= (A ∪ E)C ∩ B C E2= B ∩ C E5= A ∩ C ∩ FC E3= (A ∩ B) ∪ (D ∩ B) b) Exprimez en terme des événements défini ci-dessus les événements ``la carte tirée est:" G1 : le valet de pique G4 : le roi de trèfle G2 : le roi de pique G5 : la dame de carreau G3 : un trèfle c) Parmi les événements A, B, C, D, E, F, y en a-t-il qui sont incompatibles ? LPSP 1209 – Syllabus d’exercices / Version 2015 6 15. Manipulation de probabilités Lors d’une soirée de réveillon, la gendarmerie place ses hommes à des feux de signalisation à la sortie d’une ville importante du pays. Vers une heure du matin, 20 voitures sont arrêtées aux feux et nous savons que 8 chauffeurs sur les 20 ont bu de l’alcool et 12 n’en ont pas bu. Le brigadier choisit au hasard 4 voitures dans les 20 et demande aux chauffeurs de se ranger sur le côté. a) Quelle est la probabilité qu’au moins un des chauffeurs n’ait pas bu de l’alcool ? b) Quelle est la probabilité que, dans les 4 chauffeurs choisis, 1 ait bu de l’alcool et 3 n’en aient pas bu ? c) Quelle est la probabilité que le troisième chauffeur choisi n’ait pas bu de l’alcool sachant que les deux premiers en ont bu ? d) Quelle est la probabilité que le second chauffeur choisi ait bu de l’alcool ? 16. Calcul de probabilité par dénombrement Pour une famille de 4 enfants, quelle est la probabilité d’avoir (a) 2 garçons et 2 filles, (b) au moins un garçon, (c) aucune fille, (d) au moins deux filles ? On supposera que les probabilités d’avoir un garçon ou une fille sont égales. 17. Probabilité composée et théorème de bayes Les étudiants issus de l’immigration, présents (20 %) en minorité dans les établissements scolaires français, ont une probabilité de réussite au baccalauréat (p=0,3) qui est deux fois moindre que la probabilité de réussite des étudiants autochtones (p=0,6). Soient les événements : I : un étudiant est issu de l’immigration et R : un étudiant réussit son Baccalauréat. a) Ecrivez les probabilités données dans l’énoncé en terme de probabilités sur les deux événements I et R. b) Quelle est la probabilité de réussite d’un étudiant inscrit dans un collège français ? c) Quelle est la probabilité qu’un étudiant choisi au hasard soit issu de l’immigration si on sait qu’il a réussi son bac. 18. Variable aléatoire discrète : distribution de probabilité et espérance Considérons le jeu suivant. On jette un dé bien équilibré. Si le résultat du jet est un nombre inférieur ou égal à 4, on réalise un gain égal à la valeur du résultat obtenu. Si le résultat est 5 ou 6, on réalise une perte égale à la valeur obtenue (5 ou 6). a) Donnez le type et le domaine de variation de la variable X = "le résultat du jet" et de la variable G(X) = "gain pour un jet". b) On se demande si on a intérêt à jouer à ce jeu? Pour répondre à cette question établissez la distribution de probabilité pour la variable X = "le résultat du jet" et la fonction de gain G(X). xi 1 G(xi)1/6 pi 1 c) Calculez l'espérance mathématique de la variable G(X). Quelle conclusion tirez-vous de ces valeurs? LPSP 1209 – Syllabus d’exercices / Version 2015 7 TP 2 – V.A. normale, binomiale et TCL Exercices à préparer chez soi 19. Variable aléatoire normale Supposons que nous voulions étudier les erreurs constatées dans la réalisation d'une tâche simple. Nous demandons à un grand nombre de juges d'indiquer le nombre de personnes qu'ils ont vues entrer dans un grand magasin durant une matinée. Certains juges manqueront des personnes, d'autres en compteront deux fois; ils ne seront donc probablement pas tous d'accord. Supposons que nous obtenions un nombre moyen de clients égal à 975 pour un écart-type de 15. Admettons que la distribution des relevés (comptes effectués par les juges) soit normale. Pour les questions a) à e), commencez par formuler la question en langage mathématique puis calculez ce qui est demandé : a) Quel pourcentage des relevés se situera entre 960 et 990 ? b) Quel pourcentage des relevés se situera en dessous de 975 ? c) Quel pourcentage des relevés se situera en dessous de 990 ? d) Quelles sont les deux valeurs de X (le relevé) qui comprendraient les 50% centraux des observations ? e) Quelle est la valeur de X, telle que 75% des relevés soient plus faibles ? f) Que pouvez-vous dire d’une personne relevant 1000 entrées ? Est-ce un comptage atypique ? A quel score standardisé ce comptage correspond-il ? g) La personne responsable du projet n'a relevé que 950 entrées. S'agit-il d'une réponse plausible si cette personne a procédé de façon consciencieuse ? Pourquoi (pas) ? h) Pensez-vous que l’hypothèse de normalité est tout à fait correcte dans cette situation ? 20. Variable aléatoire binomiale X une Bi (20 ; 0,7), calculez : a) P (X < 13) b) P (X > 2) c) P (X = 13) d) P (13 < X < 17) X une Bi (100 ; 0,2), calculez : e) P (X < 25) f) P (X > 25) g) P (X = 25) h) P (15 < X < 25) Exercices réalisés durant le TP 21. Une expérience compliquée ne réussit qu'une fois sur dix. a. Trouvez la probabilité de la réussir au moins une fois en 25 tentatives indépendantes. b. En moyenne, combien de fois réussira-t-on l’expérience en 33 tentatives indépendantes ? LPSP 1209 – Syllabus d’exercices / Version 2015 8 22. Dans un restaurant, un client dépense en moyenne 50€ avec un écart-type de 15€. On choisit au hasard 50 clients. Quelle est la probabilité que la moyenne arithmétique des dépenses de ces 50 clients soit supérieure à 55€ ? 23. Un dé régulier est lancé 1000 fois. a) Quelle est la probabilité d'obtenir au moins 170 fois la face 6 ? b) Quelle est la probabilité que la somme des points obtenus soit supérieure ou égale à 3600 ? 24. Un remonte-pente peut supporter une charge limite de 5000 kg. Il a une capacité de 50 personnes. Si le poids de tous les gens utilisant le remonte-pente est une normale de moyenne de 95 kg avec un écart-type de 12.5 kg, quelle est la probabilité que le poids total d’un groupe de 50 personnes tirées au hasard dépasse la charge maximale ? Exercices supplémentaires en lien avec la matière du chapitre 25. L'acuité visuelle est une v.a. N(70 ; 55). Une personne est dite "standard" lorsque son acuité visuelle se situe entre la moyenne moins l'écart-type et la moyenne plus deux fois l'écart-type. Trouvez : a) La probabilité qu'une personne choisie au hasard soit "standard". b) La probabilité que sur 10 personnes choisies au hasard, il y en ait au moins deux qui soient "standards". c) La probabilité qu'une personne ait une acuité visuelle supérieure à la moyenne sachant qu'elle n'est pas "standard". 26. Un test de diagnostic déterminé ne permet de détecter un problème que si le score de l'enfant se situe dans les 10% inférieurs des scores obtenus au test (le 10ième pourcentile ou percentile). Si le score suit une distribution normale de moyenne 50 avec un écart-type de 30, quelle serait la limite utile pour le diagnostic ? 27. On estime à 60% la proportion des électeurs démocrates aux Etats-Unis en 1997. On extrait au hasard un échantillon de 5 électeurs de la population des électeurs américains. a) Donnez la distribution de probabilité du nombre de démocrates de l’échantillon, ainsi que sa moyenne et son écart-type. Justifiez votre réponse. b) Représentez graphiquement cette distribution de probabilité. c) Quelle est la probabilité d’obtenir exactement 3 démocrates dans l’échantillon ? d) Calculez la probabilité que l’échantillon comporte une majorité de démocrates. LPSP 1209 – Syllabus d’exercices / Version 2015 19 28. Le temps de réaction à un stimulus est une variable aléatoire normale de moyenne 15 et d'écart-type 3. a) Trouvez la probabilité que le temps de réaction d'une personne choisie au hasard soit supérieur à 20. b) Trouvez la probabilité que le temps total de réaction de 50 personnes choisies au hasard soit supérieur à 1000. c) Trouvez la probabilité que la moyenne arithmétique des temps de réaction de ces 50 personnes soit supérieure à 20. a) Comparez les probabilités trouvées en a) et en c) et dites pourquoi elles sont égales ou différentes. b) Sur 50 personnes, calculez la probabilité que plus de 5 personnes aient un score plus grand que 20. c) Sur 200 personnes, calculez la probabilité que plus de 5 personnes aient un score plus grand que 20. d) Sur 10 personnes, calculez la probabilité qu’au moins une ait un score plus grand que 20. 29. Si l'âge de tous les étudiants d'un auditoire a une moyenne de 19 ans et un écart-type de 2 ans, quelle est la probabilité que l'âge moyen de 50 étudiants tirés au hasard soit supérieur à 19.5? Justifiez votre démarche. LPSP 1209 – Syllabus d’exercices / Version 2015 20 TP 3 – Exercices d’intégration de probabilité Exercices à préparer chez soi 30. Alcotest Le touring club a développé un kit alcotest à utiliser avant de prendre le volant. Pour tester la fiabilité de son kit, il soumet un grand nombre de personnes à ce test dont certaines n’ont pas bu d’alcool et d’autres ont absorbé une quantité d’alcool au-dessus de la normale. Il en tire les constatations suivantes : 1- Dans 70% des cas, le test est positif quand une personne a bu de l’alcool. 2- Dans 90% des cas, le test est négatif quand la personne n’a pas bu d’alcool Pour faire la promotion de son test, le touring club se poste un soir à la sortie d’un “Mega-dancing” et distribue gratuitement ses alcotests aux personnes sortant du dancing. Sachant que, dans le public du dancing, 50% de personnes ont (trop) bu, a) Montrez que la probabilité qu’une personne prise au hasard à la sortie du dancing réagisse négativement au test vaut : 0.6 b) Un personne sortant de dancing utilise le test et réagit négativement. Donnez la probabilité qu’elle n’ait effectivement pas bu. c) Le représentant du touring club demande au hasard à 10 personnes sortant du dancing d’utiliser le test. Quelle est la probabilité que plus de 5 d’entre-elles réagissent positivement au test ? d) Sur la soirée, 100 personnes ont effectivement essayé le test. Calculez la probabilité que moins de 65 d’entre-elles réagissent négativement au test. Exercices réalisés durant le TP 31. Labyrinthe de Tolman Le prof. Tolman s'intéresse à l'intelligence et la mémoire du rat et plus spécialement à sa capacité à se retrouver dans un labyrinthe. Il a mis au point une expérience en 2 étapes : Phase 1 : apprentissage : Le rat est placé dans un "labyrinthe" qui n'a qu'une seule sortie et on lui montre comment trouver la sortie. Phase 2 : Test Le rat est placé dans un autre labyrinthe à 4 couloirs dont une seule (la B) amène à la sortie et est exactement dans la même direction que la sortie du premier labyrinthe mais le couloir à emprunter est différent (le couloir A a été bouché). Dans cette phase, on observe le rat jusqu'à ce qu'il trouve la sortie tout seul. A Sortie A C Sortie D B Durant la phase 2, la personne responsable note 3 choses pour chaque rat qui passe le test : • Le nom du premier couloir visité par le rat (A, B, C ou D) LPSP 1209 – Syllabus d’exercices / Version 2015 21 • • Le temps mis pour sortir du labyrinthe Le nombre d’erreurs, c’est-à-dire le nombre de couloirs visités (et revisités) avant de trouver la sortie L'expérimentateur fait passer le test à 20 rats (dont 10 rats jeunes et 10 rats âgés) On suppose que dans la phase 2, le rat choisit le premier couloir qu'il visite au hasard (et a donc une chance sur quatre de choisir un couloir donné) et que le temps qu'il met pour sortir du labyrinthe est une variable aléatoire Normale de moyenne 4 (minutes) et de variance 4. On considère dans cette question que l'âge du rat n'a pas d'importance. a) Sur 20 rats qui passent le test, quelle est la probabilité que plus de 5 d'entre eux commencent par visiter le couloir B ? b) Sur 20 rats qui passent le test, quel est le nombre moyen de rats qui vont visiter le couloir A en premier lieu ? Justifiez votre réponse. c) Sur les 20 rats qui passent le test, quelle est la probabilité que le premier rat visite d'abord le couloir B, et les deux rats suivants visitent deux autres couloirs que le B. d) En combien de minutes doit on s'attendre à ce qu'un rat ait 95% de chance d'avoir fini son parcours ? e) S'il y a 20 rats qui passent le test et que la phase d'apprentissage prend (exactement) 5 minutes, quelle est la probabilité que la personne responsable de l'expérience finisse l'expérience complète sur les 20 rats en moins de 3 heures ? f) Sur 20 rats qui passent le test, quelle est la probabilité qu'ils mettent tous moins de 7 minutes ? g) Sur 20 rats qui ont passé le test, on sait que 5 ont visité le couloir B en premier, 6 le couloir A, 4 le C et 5 le D. On tire au hasard 4 rats parmi ces 20 rats. Quelle est la probabilité que 2 de ces 4 rats soient d'abord allés dans le couloir B, un dans le A et un dans le C ? (donnez uniquement la formule de calcul) 32. Participations à un concours La distribution des résultats à un concours est N(13,4). Pour être admis, un candidat doit obtenir une note strictement supérieure à 10. Pour être admis à s'inscrire à nouveau, le candidat doit obtenir une note supérieure à 8 (mais inférieure à 10, bien sûr !). a) Trouvez le nombre moyen de candidats autorisés à se réinscrire lorsque le nombre initial de candidats est 1000. b) Sachant qu'on ne peut s'inscrire que 2 fois au plus, trouvez l'espérance mathématique de la v.a. "Nombre de participations au concours pour un étudiant". LPSP 1209 – Syllabus d’exercices / Version 2015 22 Etude de cas de probabilité 33. Temps et capacités de calcul La maîtrise des opérations d’addition et de soustraction se construit progressivement au cours de la scolarité primaire et des recherches sont conduites pour mettre en évidence les principales étapes dans l’acquisition des ces opérations. Un test a été conçu pour évaluer les capacités d’enfants d’écoles primaires en cette matière et a été utilisé dans différentes écoles de la communauté française. Le questionnaire qui nous préoccupe ici est composé de 20 questions dont 10 d’addition et 10 de soustraction. Pour chaque enfant, on a observé le temps mis pour réaliser le test et les résultats (Echec, Réussite) aux deux tests proposés. Sur base de l’ensemble des résultats de l’étude (relatif à un très grand nombre d’enfants), on a fait les constats globaux suivants : La distribution de probabilité de la variable temps est une Normale N(30,25). Concernant les scores, on a classé les enfants en 4 catégories selon qu’ils ont réussi ou raté l’une ou l’autre partie du test. La proportion d’enfants dans chaque catégorie est la suivante : Soustraction Echec Réussi Addition Echec Réussi 0.3 0.1 0.1 0.5 a) Quelle est la probabilité qu’un enfant pris au hasard mette plus de 35 minutes à réaliser le test ? b) Quelle est la probabilité que 4 enfants pris au hasard mettent en tout plus de deux heures vingt (4 fois 35mn) pour réaliser le test ? c) Sur 4 enfants quelle est la probabilité qu’exactement deux mettent plus de 35 minutes à réaliser le test ? d) Quelle est la probabilité qu’un enfant échoue à au moins une des deux épreuves ? e) Les événements « réussir le test d’addition » et « réussir le test de soustraction » sont-ils indépendants ? f) On tire au hasard un groupe de 10 enfants dans la population. Quelle est le type de la distribution de probabilité et les paramètres de la variable aléatoire : nombre d’enfants qui ont réussi le test de soustraction ? g) Pour ce groupe de 10 enfants, quelle est la probabilité qu’au moins 6 d’entre eux réussissent les deux tests ? h) Ce groupe de 10 enfants est composé de 3 garçons et 7 filles. La personne qui fait passer le test les fait rentrer au hasard l’un après l’autre. Quelle est la probabilité que les 3 garçons soient dans les cinq premiers qui passent le test ? i) (h suite) Quelle est la probabilité que le dernier enfant qui passe le test soit une fille ? j) Quelle est la probabilité qu’un enfant pris au hasard ait réussi le test d’addition si on sait qu’il a réussi le test de soustraction. LPSP 1209 – Syllabus d’exercices / Version 2015 23 TP 4 – Principes d’inférence sur une population normale Exercices à préparer chez soi 34. Test sur une moyenne en population normale à variance connue Il est généralement admis que le temps de réaction (en seconde) d’un conducteur est une variable aléatoire normale de moyenne 0.8 seconde et d’écart-type 0.2 seconde. On suppose cependant qu’après deux verres d’alcool, le temps de réactions est en moyenne plus grand. Pour vérifier cette hypothèse, on a observé le temps de réaction de 30 conducteurs ayant bu deux verres d’alcool. Le temps de réaction moyen était de 0.9 seconde. Au seuil de 5%, rejette-t-on l’hypothèse nulle ? Justifiez. Exercices réalisés durant le TP 35. Lecture d’output SPSS Voici le tableau du test réalisé par un chercheur dans SPSS. Le psychologue a choisi ce test afin de comparer l’indice moyen de développement moteur d’enfant ayant un poids réduit à la naissance (PRN) avec le développement moteur standard. Sur base de cette sortie SPSS uniquement, répondez aux questions suivantes : a) De quel test statistique s’agit-il ? b) Quelle est la taille de l’échantillon considéré ? c) Que vaut la moyenne du développement moteur standard auquel la moyenne des enfants PRN est comparée ? d) Que vaut la moyenne du développement moteur des enfants PRN dans l’échantillon considéré ? e) Comment la p-valeur est-elle calculée ? f) Que vaut la p-valeur correspondant à l’hypothèse H1 : µ ≠µ0 g) Que vaut la p-valeur correspondant à l’hypothèse H1 : µ >µ0 h) Que vaut la p-valeur correspondant à l’hypothèse H1 : µ <µ0 36. P-valeur et intervalle sur une moyenne en population normale à variance connue On considère généralement que le poids des enfants à la naissance est une v.a. Normale de moyenne 3.4 kg et d'écart-type 0,5 kg. On suspecte cependant que les femmes diabétiques mettent au monde des enfants qui, en moyenne, ont un poids supérieur à 3,4 kg. Afin de vérifier ces hypothèses, on a observé le poids de 25 enfants nés de mère diabétique : le poids moyen était de 3,64 kg. a) Quelle est la probabilité d'observer un poids moyen aussi élevé ou plus élevé que 3,64 kg si les enfants nés de mère diabétique obéissent à la loi générale ? b) A quel test d’hypothèse correspond la question posée et quelle en est la conclusion au niveau α=0.05 si vous utilisez le résultat de la question a) ? LPSP 1209 – Syllabus d’exercices / Version 2015 24 c) Toujours en considérant un écart-type connu de 0,5 kg, calculez l’intervalle de confiance à 95% sur la moyenne du poids des enfants nés de mère diabétique. 37. Manipulation d’intervalle de confiance Sur un échantillon de taille 100, on obtient l’intervalle de confiance à 95% sur la moyenne de X, une v.a. Normale : [2.58, 3.58]. Sans faire de calcul, indiquez et justifiez quelles affirmations sont vraies/fausses parmi les suivantes, nuancez votre réponse si nécessaire : Sur cette base, on désire tester l’hypothèse H0 µ = 2.5 contre H1 µ ≠ 2.5. Sur base de l’intervalle donné ci-dessus que pouvez-vous toujours affirmer, sans faire de calcul ? a) Sur cet échantillon de taille 100, avec un α = 0.05 et les hypothèses H0 µ = 2.5 contre H1 µ ≠ 2.5, l’on va rejeter H0 systématiquement. b) Sur cet échantillon de taille 100, avec un α = 0.025 et les hypothèses H0 µ = 2.5 contre H1 µ ≠ 2.5, l’on va rejeter H0 systématiquement. c) Sur cet échantillon de taille 100, avec un α = 0.05 et les hypothèses H0 µ ≤ 2.5 contre H1 µ > 2.5, l’on va rejeter H0 systématiquement. d) Sur cet échantillon de taille 100, avec un α = 0.05 et les hypothèses H0 µ ≥ 2.5 contre H1 µ < 2.5, l’on va rejeter H0 systématiquement. e) Sur un échantillon de taille 200 avec la même moyenne d’échantillon, avec un α = 0.05 et les hypothèses H0 µ = 2.5 contre H1 µ ≠ 2.5, l’on va rejeter H0 systématiquement. f) Sur un échantillon de taille 10 avec la même moyenne d’échantillon, avec un α = 0.05 et les hypothèses H0 µ = 2.5 contre H1 µ ≠ 2.5, l’on va rejeter H0 systématiquement. Exercices supplémentaires en lien avec la matière du chapitre 38. Test et IC sur moyenne à variance inconnue Compas et ses collègues (étude non publiée) ont constaté avec surprise que les jeunes enfants soumis au stress présentent en fait moins de symptômes d'angoisse et de dépression que ce à quoi l'on pourrait s'attendre. Toutefois, ils ont aussi remarqué que les scores obtenus par ces enfants sur une échelle de désirabilité sociale sont étonnamment élevés. On sait que la moyenne de population de l'échelle de désirabilité sociale est égale à 3.87 (Reynolds et Richmond, 1978). Pour un échantillon de 36 enfants soumis au stress, Compas et coll. ont relevé une moyenne d'échantillon de 4.39, avec un écart-type de 2.61. a) Par quel test pourrait-on savoir si ce groupe présente une tendance accrue à donner des réponses socialement acceptables ? b) Quelles seraient l'hypothèse nulle et l'hypothèse alternative ? c) Que pouvez-vous conclure des données ? d) Calculez les limites de confiance de 95% sur µ pour ces données. Ces limites sont-elles compatibles avec la conclusion que vous avez tirée à l'exercice c) ? LPSP 1209 – Syllabus d’exercices / Version 2015 25 TP 5 – Tests et intervalles sur deux populations normales Exercices à préparer chez soi 39. Tests sur 2 variances et sur 2 moyennes à variances inconnues, IC sur 1 variance On veut comparer deux types d’enseignement : un enseignement très directif et un enseignement libertaire. On mesure les connaissances en fin d’année par un examen identique pour tous et noté sur 20. On appelle X la note obtenue par un étudiant à cet examen. On obtient pour l’enseignement directif : n = 50, = 9.8, S = 2 et pour l’enseignement libertaire : n = 50, = 9, S = 8. a) Peut-on considérer que la dispersion des notes est égale pour les deux groupes ? b) Peut-on affirmer que l’enseignement directif est préférable pour ce qui est de l’acquisition des connaissances ? c) Pour l’enseignement libertaire, calculez les limites de confiance de 95% sur σ2. Exercices réalisés durant le TP 40. Tests sur deux moyennes pairées et non pairées On a observé les heures de sommeil gagnées grâce à l'usage de deux soporifiques A et B: Patient 1 2 3 4 5 6 7 8 9 10 Sopo A 1,9 0,8 1,1 0,1 -0,1 4,4 5,5 1,6 4,6 3,4 Sopo B 0,7 -1,6 0,2 -1,2 -0,1 3,4 3,7 0,8 0,0 2,0 Les moyennes arithmétiques et écart-types de ces deux échantillons sont : Pour A : X = 2.33 et S=2.002, pour B, X = 0.79 et S=1.77 a) En supposant que le soporifique B a été attribué à 10 patients différents de ceux qui avaient reçu le soporifique A, peut-on affirmer (au niveau α=0.05) que, grâce au soporifique A, on dort en moyenne plus qu'avec le soporifique B. b) En supposant que les deux soporifiques ont été donnés aux mêmes dix patients, répondez à la question a). 41. Lecture de résultats SPSS Un chercheur a réparti aléatoirement dix-huit enfants en deux groupes. Le premier groupe était entraîné à résoudre des problèmes de façon créative (groupe 1), tandis que l’autre ne l’était pas (groupe 2). Tous les enfants ont ensuite été confrontés à une série de problèmes auxquels ils devaient trouver des solutions possibles. Le nombre de solutions générées par chaque sujet est le suivant : Groupe 1 Groupe 2 12 15 16 5 19 11 8 8 10 9 13 5 9 6 15 11 14 10 Pour tester l’hypothèse selon laquelle les sujets du groupe 1 généreraient plus de solutions que les sujets du groupe 2, le chercheur a réalisé les graphiques et calculé les statistiques suivantes : LPSP 1209 – Syllabus d’exercices / Version 2015 26 Normal Q-Q Plot of solutions groupe: pas d'entraînement 14 Expected Normal Value 20 18 solutions 16 14 12 10 8 12 6 10 Normal Q-Q Plot of solutions 4 5,0 8 7,5 10,0 12,5 15,0 groupe: entraînement Observed Value 20 6 Expected Normal Value 18 pas d'entraînement entraînement groupe Group Statistics solutions groupe entraînement pas d'entraînement N 9 9 Mean 12,89 8,89 Std. Deviation 3,551 3,296 Std. Error Mean 1,184 1,099 16 14 12 10 8 8 10 Levene's Test for Equality of Variances F solutions Equal variances assumed Equal variances not assumed Sig. ,061 ,808 12 14 16 18 20 Observed Value Independent Samples Test t-test for Equality of Means t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 2,477 16 ,025 4,000 1,615 ,576 7,424 2,477 15,912 ,025 4,000 1,615 ,575 7,425 a) Ecrivez les hypothèses statistiques du chercheur. b) Que pouvez-vous observer sur base des analyses descriptives et des graphiques ? c) Pour chaque élément de la partie « t-test for Equality of Means » du tableau ci-dessus, identifiez la formule utilisée pour calculer les données affichées. d) Ces résultats permettent-ils de démontrer, à un niveau α=0.05, un effet de l’entraînement sur le nombre de solutions trouvées par les enfants ? e) A quoi sert le test de Levene dans le deuxième tableau ? Quelle conclusion en tirez-vous ? f) A quoi servent les qq-plots ? Que pouvez-vous en conclure ? Auriez-vous pu utiliser une méthode plus efficace pour arriver au même but ? g) Outre l’hypothèse de normalité, quelle est l’autre hypothèse sous-jacente au test réalisé ? Est-elle vérifiée ? LPSP 1209 – Syllabus d’exercices / Version 2015 27 Exercices supplémentaires en lien avec la matière du chapitre 42. Un enfant ne raconte pas de la même manière qu'un adulte une histoire ou un film. L'enfant a tendance à rapporter les événements un à un. L'adulte planifie son récit, reliant des événements qui forment de petits épisodes. Pour étudier cette aptitude à la prise en compte de l'ensemble de l'histoire, on a demandé à 20 enfants de première primaire et à 20 adultes de transformer en une narration une suite de 19 images qui présentaient la journée d'un petit ours. Dans chaque narration, on a compté les et qui introduisaient la présentation d'une image. Pour les enfants de 1ère, les valeurs obtenues sont les suivantes ( X = 5.9 et S=1.68) : 7 4 5 6 8 5 5 8 6 5 6 8 5 7 7 2 4 6 5 9 Pour les adultes, les valeurs obtenues sont les suivantes ( X = 3.7 et S=2.54) : 4 2 0 5 4 3 9 7 2 1 4 4 2 5 9 0 4 2 2 5 a) Testez l'hypothèse que les moyennes des adultes et des enfants sont différentes au seuil α = 0.05. b) Imaginez un instant que ce sont les mêmes 20 sujets qui ont participé deux fois à cette expérience. Simplement, les adultes sont les enfants de 1ère primaire 18 ans plus tard. Les scores d'un même sujet sont juste en-dessous l'un de l'autre. Quel test d’hypothèse devriez vous utilisez pour tester que ces sujets n'utilisent pas le même nombre de et à l'âge adulte que lorsqu'ils étaient enfants. 43. Pendant 6 mois, un groupe d’éducateurs a travaillé avec un groupe de 15 personnes souffrant d'un handicap grave afin de tenter de leur apprendre, via l'imitation, des aptitudes en matière de soins personnels. Pendant une deuxième période de six mois, ils ont eu recours à une guidance physique avec les mêmes personnes. Pour chacune des périodes de six mois, ils ont rassemblé les évaluations du niveau d'aide nécessaire (niveau élevé = mauvais) à chaque personne. Les données relatives à chaque individu sont les suivantes: Sujet: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Imitation: 14 11 19 8 4 9 12 5 14 17 18 0 2 8 6 Guidance physique: 10 13 15 5 3 6 7 9 16 10 13 1 2 3 6 Les tableaux suivants présentent le résultat d’un test de comparaison de deux moyennes pour données pairées sur ces données : Paired Samples Statistics Pair 1 Guidance physique Imitation Mean 7.9333 9.8000 LPSP 1209 – Syllabus d’exercices / Version 2015 N 15 15 Std. Deviation 4.81763 5.85784 Std. Error Mean 1.24391 1.51249 28 Paired Samples Test Paired Differences Mean Pair 1 Guidance physique - Imitation -1.8667 95% Confidence Interval of the Difference Lower Upper Std. Deviation Std. Error Mean 3.24844 .83874 -3.6656 t -.0677 df -2.226 Sig. (2-tailed) 14 .043 a) Recherchez comment chaque chiffre de ces tableaux a été calculé et comment il s’interprète. b) Sur base de ces résultats pouvez vous considérer que l'aide nécessaire a diminué lors de la deuxième période de six mois ? Supposons que nous révisions la conception de l'étude afin d'avoir des sujets différents pour chaque « traitement » (imitation ou guidance physique). Nous avons obtenu les données suivantes: Imitation: 14 11 19 8 4 9 12 5 14 17 18 0 2 8 6 Guidance physique: 10 14 5 8 1 10 13 14 0 1 4 2 3 4 14 Les tableaux suivants présentent le résultat d’un test de comparaison de deux moyennes pour données non pairées sur ces données : Group Statistics Aide nécessaire GROUPE Initiation Guide physique N Mean 9.8000 6.8667 15 15 Std. Deviation 5.85784 5.24904 Std. Error Mean 1.51249 1.35530 Independent Samples Test Levene's Test for Equality of Variances F Aide nécessaire Equal variances assumed Equal variances not assumed Sig. .043 .837 t-test for Equality of Means t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 1.444 28 .160 2.9333 2.03087 -1.22672 7.09339 1.444 27.669 .160 2.9333 2.03087 -1.22896 7.09563 c) Recherchez comment chaque chiffre de ces tableaux a été calculé et comment il s’interprète. d) Sur base de ces résultats pouvez vous considérer que l'aide nécessaire a diminué lors de la deuxième période de six mois ? e) Quel est le problème le plus manifeste posé par cette seconde série de données lorsqu'il s'agit de trouver une différence significative ? LPSP 1209 – Syllabus d’exercices / Version 2015 29 Etude de cas d’inférence sur une ou deux population(s) normale(s) 44. Faits divers Cet exercice met en scène notre chercheur en psychologie qui étudie les faits divers (FD). Il a extrait aléatoirement de sa base de données un échantillon de 10 FD publiés dans Le Soir et de 10 autres publiés dans La dernière Heure. Il note, pour chaque FD, sa longueur en nombre de lignes. Voici le tableau de données qu'il a obtenu : Le soir 44 49 25 19 52 Le soir 24 36 47 51 22 La DH 50 69 45 35 47 La DH 36 66 55 71 84 Les moyennes arithmétiques et écart-types de ces deux échantillons sont : Pour le Soir : X = 36.9 et S=13.2367, pour la DH, X = 55.8 et S=16.185. a) Quels sont les estimateurs des paramètres µ et σ2 pour le nombre de lignes des FD pour chaque journal. b) Une étude antérieure a montré que la longueur d'un article "standard" de journal était une variable aléatoire normale de moyenne 40.6 et de variance 500. Testez l'hypothèse que dans chacun des deux journaux les longueurs moyennes sont différentes de la longueur moyenne d'un article standard au niveau α=0.05. On considère que σ2 est connu et vaut 500. c) Après avoir réfléchi un moment, notre chercheur se dit qu'il est probable que la variance de la longueur des FD soit plus petite que celle des articles standards, qui contiennent des articles de types très différents. Testez cette hypothèse (α=0.05) pour les deux échantillons et indiquez vos conclusions. d) Il décide ensuite de refaire le test b), mais en considérant les variances comme inconnues. Réalisez ce test avec le même α que précédemment. e) Déterminez les intervalles de confiance pour la moyenne et la variance des longueurs des FD du Soir et pour la moyenne des articles "standards". Utilisez la formule adéquate selon que l'on peut penser que la variance est ou non connue. f) Enfin, notre chercheur se décide à comparer les moyennes obtenues dans Le Soir et La dernière Heure. Son hypothèse est que les FD seront en moyenne plus courts dans Le Soir. Testez cette hypothèse au niveau α=0,1 en considérant les variances comme inconnues. N’oubliez pas de tester l'égalité des deux variances. g) Faites le lien entre vos réponses aux questions d), e) et f) et les sorties SPSS qui suivent : LPSP 1209 – Syllabus d’exercices / Version 2015 30 TP 6 – Inférence sur une ou deux variable(s) catégorielle(s) Exercices à préparer chez soi 45. Test et IC sur une proportion La gendarmerie nationale a établi durant les dernières années, que pendant les fêtes de fin d'année, un conducteur sur 10 avait, en moyenne, un taux d'alcoolémie supérieur à celui autorisé par la loi. Après une campagne où furent renouvelés les conseils du genre "Si tu bois, ne conduis pas" : 1° La gendarmerie d'une petite ville décèle deux conducteurs dont le taux d'alcoolémie dépasse la norme sur 50 conducteurs contrôlés. a) Peut-on affirmer que la campagne a eu l'effet désiré (α=0.05) ? b) Quel aurait dû être le résultat du contrôle pour tirer une telle conclusion ? 2° Dans l'ensemble du pays, on a observé 40 conducteurs dont le taux d'alcoolémie dépassait la norme sur 1000 conducteurs contrôlés. Peut-on affirmer que la campagne a eu l'effet désiré (α=0.05) ? Comparez avec le résultat obtenu en 1°. 3° Avec les données fournies en 2°, estimez par intervalle de confiance la proportion des conducteurs ayant un taux d'alcoolémie inférieur à la norme. Exercices réalisés durant le TP 46. Test sur deux proportions Dans une enquête sur les fumeurs, un expérimentateur trouve que parmi 100 hommes, il y a 22 fumeurs et parmi 100 femmes, il y en a 18. Peut-il affirmer, au niveau α = 0,05, que, sur base de son enquête, les femmes fument moins que les hommes ? 47. Test d’ajustement et test binomial En 1997, l’enquête sur la santé mentale des belges indique que 6,4% des personnes interrogées rapportent une dépression dans les douze mois ayant précédés l’enquête. (http://www.iph.fgov.be/epidemio/epifr/crospfr/hisfr/his97fr/his5273.pdf) En 2001 une nouvelle enquête (comme tous les 4 ans) révèle que 711 personnes sur 10068 ont connu une dépression dans les 12 mois précédents l’enquête. (http://www.iph.fgov.be/epidemio/epifr/crospfr/hisfr/his01fr/his13fr.pdf) a) Si en 2001, la distribution de la dépression n’a pas changé, combien devrait-on observer de dépressifs sur les 10068 personnes interrogées ? b) Peut-on dire que la dépression gagne du terrain ? Testez cette hypothèse au niveau α=0.05. c) Peut-on affirmer (à partir des données observées en 2001) que la prévalence de la dépression dans la population est de 10 pourcents ? Testez cette hypothèse à l’aide de deux tests différents et comparez leurs résultats. 48. Test d’indépendance et V de Cramer L’étude de 2001 (cf. exercice précédent) indique également le niveau d’enseignement des personnes interrogées (cf. table de contingence ci-dessous). 1) De quel type est la variable niveau scolaire ? Combien a-t-elle de niveaux ? 2) La dépression est-elle liée au niveau scolaire ? Réalisez un test approprié et commentez. 3) A partir de la valeur de Khi-carré, calculez un V de Cramer. LPSP 1209 – Syllabus d’exercices / Version 2015 31 Niveau d’instruction Pas de diplôme Primaire Secondaire inférieur Secondaire supérieur Enseignement supérieur Dépression Déprimé Non déprimé 10 228 149 1303 149 1736 199 2668 170 3129 49. Lecture de sorties SPSS On mesure le niveau de stress de départ (3 niveaux de stress : léger ; modéré ; sévère) de 200 personnes inscrites à des thérapies de groupe (2 types de thérapie : relaxation ; cognitive). La patronne du centre de formation se demande si les personnes qui fréquentent les cours sont réparties de manière égale entre les niveaux de stress. Pour ce faire, un stagiaire effectue le test suivant : a) De quel test statistique s’agit-il et quelles en sont les hypothèses H0 et H1 ? b) Les conditions d’application sont elles respectées ? c) Les personnes qui fréquentent les cours sont-elles réparties de manière égale entre les niveaux de stress ? On se demande si le type de thérapie choisie est indépendant du niveau de stress des sujets. Pour répondre à cette question, le stagiaire réalise le test statistique suivant : LPSP 1209 – Syllabus d’exercices / Version 2015 32 d) e) f) g) De quel test statistique s’agit-il et quelles en sont les hypothèses H0 et H1 ? Les conditions d’application sont elles respectées ? La thérapie choisie semble-t-elle indépendante du niveau de stress des sujets ? Interprétez en français le V de Cramer. Exercices supplémentaires en lien avec la matière du chapitre 50. Soient X=243 le nombre d’élèves qui ont réussi une évaluation en mathématiques pour un échantillon de 300 élèves issus de classes favorisées, et Y=153 les résultats à cette même évaluation pour un échantillon de 300 élèves issus de classes défavorisées. Si p1 et p2 représentent respectivement les proportions théoriques d’élèves capables de réussir dans ces deux populations, a) Construisez un intervalle de confiance pour p1. b) Testez H0 : p1 = p2 contre H1 : p1 > p2 au niveau α = 0.05 51. Une enquête destinée à mesurer l'impact de la récession économique sur les vacances des belges, a révélé que sur 400 familles interrogées, 86 avaient l'intention de prendre des vacances à l'étranger cette année-ci. Auparavant une famille belge sur 4 prenait des vacances à l'étranger. a) Au vu de ce résultat peut-on dire que la récession économique a eu un impact sur les vacances des belges ? Comment testeriez-vous cette hypothèse ? b) Dans ces familles, 200 sont flamandes et francophones. 32 des 86 familles qui ont indiqué avoir l’intention de partir sont flamandes. Comment testeriez vous l’hypothèse que le taux de flamands partant à l’étranger est différent du taux de francophones ? 52. Un intervalle de confiance à 90% pour la proportion d'enfants agressifs selon le décodage de l'analyste 2 est donné par [0.42, 0.75]. On aimerait tester H0 : p=0.30, où p est la proportion d'enfants agressifs selon le décodage de l'analyste 2. Laquelle des affirmations suivantes est correcte (sans faire de calcul) ? a) Si H1 : p ≠ 0.30 , on rejette H0 au niveau α = 0.05 b) Si H1 : p ≠ 0.30 , on ne rejette pas H0 au niveau α = 0.10 c) Si H1 : p ≠ 0.30 , on ne rejette pas H0 au niveau α = 0.15 d) Si H1 : p ≠ 0.30 , on ne rejette pas H0 au niveau α = 0.05 53. a) Sur 25 personnes choisies au hasard, 8 ont les yeux bleus. Ces observations infirment-elles l'hypothèse selon laquelle une personne sur quatre a les yeux bleus? b) Sur 300 personnes choisies au hasard, 96 ont les yeux bleus. Que peut-on en conclure ? c) Comparez les deux conclusions. LPSP 1209 – Syllabus d’exercices / Version 2015 33 54. L’étude de 2001 (dont on a déjà parlé) indique également le niveau d’enseignement des personnes interrogées. Sur base de cette information, vérifiez si l’échantillon utilisé est bien représentatif de la population belge. On sait que celle-ci se compose de 2.5% de non-diplômés, 15% de gens ayant un diplôme de l’enseignement primaire, 19.5% de gens issus du secondaire inférieur, 29% du secondaire supérieur et 34% ayant suivi l’enseignement supérieur. 55. En 2001, Wolfe et al. se sont intéressés au phénomène de maltraitance. Sur un échantillon de 1403 familles, ils ont compté les cas de maltraitance. Ils ont aussi noté l’état de la famille : intacte ou non (deuil, divorce). Le tableau ci-contre reprend les chiffres de leur étude. Count famille maltrait non maltraité maltraité non intact 159 125 intact 782 337 a) En ce qui concerne l’état de la famille, on peut espérer qu’il y a significativement plus de familles « intactes » que de familles « à difficultés ». Réalisez le test pour répondre à cette question. b) Imaginez que vous alliez trouver un responsable politique pour lui demander des fonds afin de lancer un programme de prévention de la maltraitance dans les familles «non-intactes ». Celuici vous rétorque que le phénomène de maltraitance en général est déjà pris en charge par un budget qui permet de s’occuper de 10% des familles du territoire et que c’est bien assez. Montrez-lui, chiffres à l’appui, que le budget est insuffisant. c) Si vous avez réussi l’exercice précédent, vous avez marqué un point par rapport au responsable, pour gagner la partie et obtenir de l’argent pour votre programme de prévention, vous devez encore lui prouver l’existence d’un lien entre état de la famille et maltraitance. d) Construisez le tableau de contingence auquel le test de Chi-Carré compare le tableau de contingence observé pour tester l’hypothèse posée au point ci-dessus. LPSP 1209 – Syllabus d’exercices / Version 2015 34 TP 7 – Inférence non-paramétrique et sur un coefficient de corrélation Exercices à préparer chez soi 56. Test sur la somme des rangs de Wilcoxon D’après McConauhy, les jeunes enfants organisent leurs histoires selon des modèles descriptifs simples (ils lient les idées, et donc les phrases avec des « et puis ») tandis que les enfants plus âgés organisent les idées avec des articulations (p.ex. liens causaux). On demande à deux groupes d’enfants de lire une histoire et de la raconter, on compte le nombre d’articulations. Jeunes enfants Enfants âgés 0 4 1 7 0 6 3 4 2 8 5 7 2 a) Réalisez le test de la somme des rangs de Wilcoxon et interprétez ses résultats. b) Réalisez le test paramétrique équivalent et comparez les résultats obtenus. 57. Coefficients de corrélation Soit 5 observations sur deux variables : X = 1, 2, 3, 4, 5 Y = 1, 4, 9, 16, 25 1) Réalisez manuellement un graphe X-Y pour représenter la relation entre ces deux variables et calculez les coefficients de corrélation de Spearman et de Pearson entre ces deux variables (à la main ou dans SPSS). 2) Lequel est le + grand ? Pourquoi ? Est-ce attendu que l’un prenne une valeur de 1 ? 3) Si on ajoute le couple X = 30 et Y = 10 dans les données. Voici les coefficients obtenus par SPSS. Qu’en pensez-vous ? Comment appeler le point qui a été ajouté ? Correlations Variable X Variable Y Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N VAR00001 1 6 ,078 ,883 6 VAR00002 ,078 ,883 6 1 6 Correlations Spearman's rho Variable X Variable Y Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N VAR00001 VAR00002 1,000 ,829* . ,042 6 6 ,829* 1,000 ,042 . 6 6 *. Correlation is significant at the 0.05 level (2-tailed). LPSP 1209 – Syllabus d’exercices / Version 2015 35 Exercices réalisés durant le TP 58. Test de Mann-Withney (suite du premier exercice à préparer chez soi) Toujours concernant le nombre de « et puis », voici les résultats obtenus via SPSS pour la question a) de la préparation : a) Quels sont les autres statistiques qui apparaissent dans l’output ? b) Ecrivez la fonction qui permet de passer de la statistique de Wilcoxon à celle de MannWhitney c) Si l’on ajoute un enfant jeune ayant utilisé 19 articulations dans les données. Voici les résultats obtenus aux tests paramétriques et non paramétriques. Discutez ces résultats en quelques lignes. 59. Test de Wilcoxon pour échantillons pairés (Howell ex 18.5) D’après Nurcombe et Fitzhenry-Coor (1979), une formation en techniques diagnostiques devrait permettre à un clinicien de générer (et tester) davantage d’hypothèses pour parvenir à une décision concernant un cas. On demande à 10 internes en psychiatrie de regarder la vidéo d’un entretien clinique et de noter leurs réflexions. On compte le nombre d’hypothèses incluses dans leurs réflexions. Ils suivent ensuite une formation. A la suite de cette formation, on leur fait faire la même tâche avec une vidéo analogue. On compte le nombre d’hypothèses. Sujet Avant Après 1 8 7 2 4 9 3 2 3 4 2 6 LPSP 1209 – Syllabus d’exercices / Version 2015 5 4 3 6 8 10 7 3 6 8 1 7 9 3 8 10 9 7 36 a) Réalisez le test des rangs pour échantillons pairés de Wilcoxon. b) Comparer vos résultats au test du signe obtenu dans SPSS. 60. Test et IC sur une corrélation Un psychologue étudie la relation entre le stress et la santé mentale chez des étudiants universitaires. A l'aide d'une échelle qu'il a mise au point pour mesurer la fréquence et l'importance perçue de certains événements récents de la vie, il a défini une mesure du stress par l'impact de ces différents événements négatifs sur les 20 étudiants masculins interrogés. Il a également demandé aux étudiants de remplir une liste de contrôle de Hopkins qui évalue la présence et l'absence de 57 symptômes psychologiques. Au plus le score de Hopkins est haut, au plus la personne est diagnostiquée comme étant en mauvaise santé mentale. 1) Voici le graphe de la relation entre ces deux variables, que pouvez-vous dire de cette relation ? 2) Voici le coefficient de corrélation de Pearson calculé sur ces données par SPSS. Interprétez-le dans le contexte. 3) Effectuez le test approprié pour voir si la corrélation est significative. 4) Calculez un intervalle de confiance pour le coefficient de corrélation de la population. LPSP 1209 – Syllabus d’exercices / Version 2015 37 Exercices supplémentaires en lien avec la matière du chapitre 61. Lecture de résultats SPSS La société Blizzard étudie si un nouveau jeu vidéo pour jeunes ados développé aux USA est adapté au marché européen. Le jeu a déjà été largement testé sur le marché Américain qui sert de référence. Les variables ciblées sont le stress lié au jeu et la rapidité des joueurs à passer les niveaux. Dans l’expérience, 32 jeunes européens (16 de 10 ans et 16 de 14 ans) testent le jeu. Pour chacun on mesure les informations suivantes : T RD RF est le temps mis pour réussir le niveau 1 (en minutes). est le rythme cardiaque avant le test (en pulsations par minute). est le rythme cardiaque en fin de test (fin de niveau 1). Cet exercice reprend les données sur les jeux vidéos utilisées dans la partie I3 du cours sur l’inférence sur 2 distributions normales. On a réalisé un test non paramétrique de la somme des rangs de Wilcoxon pour comparer le rythme cardiaque en début de test des enfants de 10 ans et de 14 ans. Voici les résultats obtenus: a. Quelles hypothèses sont testées par les trois statistiques de test du tableau de droite ? b. A quels types d’échantillons s’appliquent ces tests ? Est-ce que ces conditions sont vérifiées ? c. Quelle conclusion peut-on tirer à partir des résultats donnés dans ces tableaux ? d. Retrouver ou calculer la statistique de test min(Ws,Ws’) dans les tableaux ? e. Pouvez vous aussi recalculer la statistique de test Z qui se trouve dans le tableau de droite ? Dans quelle situation peut-elle être utilisée ? f. Pouvez-vous aussi retrouver la valeur de la statistique de test de Mann-Whitney ? Qu’est ce qu’elle apporte en plus ? 62. Lecture de résultats SPSS (suite) Dans la suite de l’exercice précédent à propos de la société Blizzard qui étudie si un nouveau jeu vidéo est adapté au marché européen. On a appliqué un test non paramétrique pour comparer le rythme cardiaque des enfants de 10 ans avant et après le jeu. Voici les résultats du test LPSP 1209 – Syllabus d’exercices / Version 2015 38 a. b. c. d. Quel test est réalisé dans ce tableau ? A quelle question ce test permet-il de répondre ? Qu’est ce que votre test permet de conclure partir du résultat SPSS ? On constate que la somme des rangs pour les différences négatives est nulle. Comment pouvez-vous expliquer cela ? e. Utilisez les données du tableau de gauche pour répondre à la question du test à partir de la formule donnée dans le cours et du formulaire. Que concluez-vous ? f. Sur base des informations ci-dessus, peut-on conclure, au seuil α=0.05, que la valeur centrale du rythme cardiaque des enfants de 10 ans a augmenté durant le jeu ? g. Petite question subsidiaire, pouvez vous retrouver la valeur de la statistique Z qui se trouve dans le tableau de droite ? LPSP 1209 – Syllabus d’exercices / Version 2015 39 Exercices d’intégration sur l’inférence 63. Enseignement Un expert de l’union européenne dans le domaine de l’enseignement en pays en développement s’intéresse à l’évolution de la scolarité dans le domaine de l’arithmétique d’enfants africains habitant en milieu urbain et rural. Il a réalisé une large enquête sur le sujet dans plusieurs pays francophones. Au sein de ceux-ci, il a sélectionné au total 200 enfants de 12 ans issus de milieu urbain et 200 enfants recevant leur scolarité en milieu rural. Il leur a proposé différents tests et possède pour chacun des résultats à un test d’arithmétique (/100). a) L’expert croit que les enfants de milieu rural sont en moyenne moins bons en rédaction que les enfants issus de milieu urbain. Quel test d’hypothèse utiliseriez-vous pour répondre à cette question à partir des résultats de ces deux groupes ? Ecrivez les hypothèses à tester. b) L’expert sait que le test d’arithmétique est réussi (avec 50/100 ou plus) par 70% des enfants européens. Il se demande si le taux de réussites est plus faible pour les enfants africains. Comment peut-il tester cette hypothèse sur base des données disponibles ? c) L’expert s’interroge aussi à propos de la différence de variabilité des résultats des enfants européens et africains. Pour le test d’arithmétique, longuement éprouvé Europe, il sait que la variance des résultats vaut σ2=166. Comment peut-il comparer celle-ci aux résultats observés en Afrique ? d) Un collègue de l’expert lui affirme que le problème dans ce genre d’enquête est que les enfants ne sont pas habitués à passer des examens « à l’Européenne » et que leurs résultats ne reflètent donc pas leurs vraies connaissances. Pour valider cette affirmation, il propose aux enfants d’un des pays concerné une session de préparation à la méthode d’examen puis leur fait repasser une seconde fois un test d’arithmétique semblable au premier. A partir de ces résultats complémentaires, quel test peut-il utiliser pour valider son affirmation c’est-à-dire montrer que les enfants font mieux le second test que le premier ? 64. Jeux vidéos Voici quelques tests statistiques réalisés dans le cadre d’une étude sur le comportement d’enfants de 10 et 14 ans face à un jeu vidéo. a) Un enfant belge de 14 ans est-il, en moyenne, moins rapide qu’un enfant américain pour venir à bout du premier niveau du jeu vidéo Pocahontas sachant qu’un enfant Américain met en moyenne 9 minutes ? Complétez en premier les valeurs manquantes dans les tableaux. One-Sample Statistics Std. N Mean Deviation 16 9.4863 3.83676 Temps Std. Error Mean (1) One-Sample Test Test Value = 9 Temps t df Sig. (2-tailed) Mean Difference (2) (3) .620 .4863 LPSP 1209 – Syllabus d’exercices / Version 2015 40 b) Le temps moyen mis par un enfant de 10 ans pour venir à bout du premier niveau du jeu vidéo est-il en moyenne plus élevé que le temps mis par un enfant de 14 ans ? Complétez en premier les valeurs manquantes dans les tableaux. Group Statistics Age de l'enfant 10.00 14.00 Temps N Mean 14.6688 9.4863 16 16 Std. Deviation (4) 3.83676 Std. Error Mean .68465 .95919 Independent Samples Test Levene's Test for Equality of t-test for Equality of Means Variances Mean F Sig. t df Sig. (2-tailed) Difference Equal variances assumed Equal variances not assumed Temps 1.367 .252 Std. Error Difference 4.398 (5) .000 5.1825 1.17847 4.398 (6) .000 5.1825 1.17847 c) Le jeu vidéo est-il “dangereux” pour un enfant de 10 ans ? C’est-à-dire, a-t-il pour conséquence d’augmenter en moyenne le rythme cardiaque de plus de 20 pulsations par minutes ? Dans ce cas-ci, on peut soit faire un test sur une moyenne en utilisant directement la variable « augmentation du rythme cardiaque » soit un test sur deux moyennes pour données pairées. Dans ce second cas, on ne peut malheureusement pas indiquer qu’on désire tester si la différence est >20, mais l’intervalle de confiance sur la différence nous permet malgré tout de répondre à la question posée. Complétez en premier les valeurs manquantes dans les tableaux. One-Sample Statistics Augmentation de rythme cardiaque N Mean Std. Deviation Std. Error Mean 16 25.5000 5.12510 1.28128 One-Sample Test Test Value = 20 t Augmentation de rythme cardiaque 4.293 df Sig. (2-tailed) 15 .001 Mean Difference 5.5000 95% Confidence Interval of the Difference Lower Upper 2.7690 (7) Paired Samples Statistics Pair 1 Rythme cardiaque à la fin du jeu Rythme cardiaque au début du jeu LPSP 1209 – Syllabus d’exercices / Version 2015 Mean N Std. Deviation Std. Error Mean 99.9375 16 11.28698 2.82174 74.4375 16 8.70225 2.17556 41 Paired Samples Test Std. Deviation Mean Pair 1 Rythme cardiaque à la fin du jeu Rythme cardiaque au début du jeu 25.5 5.12510 Paired Differences 95% Confidence Interval of Std. Error the Difference Mean Lower Upper 1.28128 22.7690 t 28.2310 df (8) Sig. (2-tailed) 15 .000 d) La différence entre le rythme cardiaque avant et après le test est-elle identique pour un enfant de 10 ans et de 14 ans ? Complétez en premier les valeurs manquantes dans les tableaux. Group Statistics Augmentation de rythme cardiaque Age de l'enfant 10.00 14.00 N 16 16 Std. Deviation 5.12510 2.30579 Mean 25.5000 9.6250 Std. Error Mean 1.28128 .57645 Independent Samples Test Levene's Test for Equality of Variances F Augmentation de rythme cardiaque Equal variances assumed 8.877 Equal variances not assumed LPSP 1209 – Syllabus d’exercices / Version 2015 Sig. .006 t-test for Equality of Means t Sig. (2tailed) df Mean Difference Std. Error Difference 11.299 30 (9) 15.8750 1.40498 11.299 20.833 .000 15.8750 1.40498 42 Exercices supplémentaires sur les probabilités 65. La probabilité qu'un homme soit en vie dans 25 ans est 3/5 et la probabilité que son épouse soit en vie dans 25 ans est 2/3. A) En supposant que ces deux événements soient indépendants, trouvez la probabilité que, à cette époque, a) mari et femme soient en vie d) au moins un des deux époux soit en vie b) le mari soit seul en vie e) un seul des deux époux soit en vie. c) la femme seule soit en vie B) En supposant que la probabilité pour qu'un homme soit en vie dans 25 ans sachant que sa femme est encore en vie est de 0,7. Trouvez la probabilité que, à ce moment, a) tous deux soient en vie b) la femme soit en vie sachant que l'homme est en vie c) l'homme soit en vie sachant que sa femme ne l'est plus d) l'homme seul soit en vie e) au moins un des deux époux soit en vie f) la femme ne soit plus en vie sachant que l'homme ne l'est plus non plus g) un seul des deux époux soit en vie 66. Deux dés sont lancés. Quelles sont les probabilités des événements suivants ? a) A = Avoir au moins un 6. b) B = Avoir un 5 et un 6. c) C = N’avoir aucun 6. d) D = Avoir au moins un 6 et pas de 3. e) E = Avoir au moins un chiffre impair. 67. Deux théâtres se partagent les 1000 spectateurs d'un samedi soir. Chaque personne choisit une des deux représentations d'une manière totalement indifférente et indépendamment des autres spectateurs. Combien de sièges chaque théâtre doit-il contenir pour que la probabilité de refuser au moins un client par manque de places assises ne dépasse pas 1% ? 68. L'étudiant A rentre chez lui le vendredi soir en train. Le temps qu'il met à faire ce trajet est une v.a. normale de moyenne 115 minutes et d'écart-type 4 minutes. L'étudiant B, son voisin, préfère rentrer chez lui en auto-stop. La durée de son trajet est une v.a. normale de moyenne 105 minutes avec un écart-type de 15 minutes. a) Calculer : 1) la probabilité qu'un vendredi donné, en partant au même moment, A soit rentré avant B. 2) la probabilité que sur 100 vendredis, B soit rentré avant A au moins 60 fois. b) Les quatre derniers vendredis de l'année, les deux étudiants sont pressés et veulent à tout prix passer moins de 2 heures pour faire chaque trajet. Lequel des 2 étudiants a le plus de chance de perdre au plus 8 heures sur le total des 4 trajets ? LPSP 1209 – Syllabus d’exercices / Version 2015 43 69. Un examen comporte 100 questions. La probabilité de répondre correctement à une question est 0,7. Quelle est la probabilité que le nombre de réponses correctes d'un candidat soit strictement compris entre 60 et 80 ? 70. 4 joueurs jouent au Whist et chacun reçoit 13 cartes. a) Combien de jeux différents peut potentiellement recevoir un joueur donné (Exprimez la réponse par une formule puis faites le calcul). b) Quelle est la probabilité qu’un joueur donné reçoive 13 piques ? c) Quelle est la probabilité qu’un joueur donné reçoive exactement 5 cœurs, l’as de pique et exactement 2 rois autres que celui de cœur ? d) Quelle est la probabilité qu’un joueur donné reçoive au moins un as. 71. La cote moyenne à un examen final était de 72 et l'écart-type valait 9. La distribution des résultats est normale. On décide de distribuer des prix aux meilleurs étudiants de telle sorte que seulement 10% des étudiants obtiennent un prix. A partir de quelle cote doit-on donner un prix ? 72. Un psychologue fait subir 20 tests équivalents et indépendants à des enfants de 1ère primaire. Il choisit des enfants qui ont a priori la même aptitude à ce genre de tests. Il a remarqué que la probabilité de réussir au moins huit tests parmi les 20 est 0,9987. Trouvez la probabilité qu'un enfant donné réussisse un test particulier. 73. Soit X une v.a. Bi (25;0,4). Calculez a) P(X ≤ 8) c) P(X = 11) b) P(X ≥13) d) P( X > 15) e) P(X < 9) f) P(7 ≤ X < 14) 74. On tire une carte dans un jeu de 52 cartes. Soient les deux événements : C : la carte est un coeur A : la carte est un as a) Calculez P(A), P(C) et P(A∩C) par dénombrement Exprimez les probabilités suivantes en formules sur ces deux événements et calculez les probabilités associées en utilisant les formules de base de calcul de probabilité (et pas par dénombrement). b) Probabilité que la carte tirée ne soit pas un cœur. c) Probabilité que la carte tirée soit un coeur ou un as. d) Probabilité de ne pas tirer un cœur ou de ne pas tirer un as. e) Probabilité que la carte tirée soit un as si on sait que c’est un cœur. LPSP 1209 – Syllabus d’exercices / Version 2015 44 75. L’état décide de recruter 275 employés. Avant d’être engagé chaque candidat doit réussir un examen. Pour la simplicité, on suppose que chaque candidat a une probabilité 0.6 de le réussir. Trouvez la probabilité d’obtenir strictement plus de 275 réussites quand 500 personnes s’inscrivent à l’examen. 76. On lance trois pièces de monnaie, toutes trois parfaitement équilibrées. On regarde sur quel côté elles retombent. Quelle est la probabilité: a) d'avoir 3 fois face? b) d'avoir 2 fois face et une fois pile? c) d'avoir au moins une fois face? d) d'avoir deux fois face et deux fois pile pour un même lancé? e) d'avoir au moins une fois face et une fois pile? Quelle technique de probabilité avez vous utilisé pour résoudre cet exercice. Pourquoi s’applique-telle ? 77. Soit Z une v.a normale réduite. Calculez : a) P(Z = 2) b) P(- 2,48 ≤ Z ≤ -1,01) c) P(Z ≤ 0) d) P( |Z| < 2) 78. Un joueur joue avec deux pièces de monnaie bien équilibrées de la façon suivante: il gagne 5 F si pile apparaît deux fois, gagne 2 F si pile apparaît une seule fois, mais par contre perd 10 F quand on obtient deux fois face. Calculer la moyenne de son gain. Est-ce intéressant de jouer à ce jeu? 79. Antoine lance un dé vert et un dé rouge, tous deux parfaitement équilibrés. Quelle est la probabilité: a) d'avoir le chiffre 1 sur chaque dé? b) d'avoir un chiffre impair sur chaque dé? c) d'avoir un chiffre pair sur chaque dé? d) d'avoir un 1 sur le dé vert et un 2 sur le rouge? e) d'avoir un 1 et un 2? f) d'avoir un chiffre impair sur le vert et un chiffre plus petit que 3 sur le rouge? g) d'avoir un pair et un impair? h) d'avoir un 3 et un pair? 80. Si X est une variable aléatoire normale d’espérance 1 et de variance 4, calculez les probabilités suivantes : a) P(X=2) d) P(-2<X ≤ 0) g) P(X ≥ 1) b) P(X>0) e) P(|X|<2) h) P(X>-1) c) P(0<X ≤ 2) f) P(-2 ≤ X ≤ 1) i) P(X ≤ 0.47) LPSP 1209 – Syllabus d’exercices / Version 2015 45 81. Une pièce de monnaie est jetée deux fois consécutivement. Relativement à cette expérience, on définit les deux événements: A = obtenir pile au premier jet. B = les résultats des deux jets sont différents. a) Les deux événements A et B sont-ils indépendants lorsque la pièce est bien équilibrée? b) Même question lorsque la probabilité de face est 0,6. 82. Dans les étudiants de première candidature en psychologie ¾ des étudiants sont des filles. De plus parmi les filles, ¾ kotent quand parmi les garçons seulement la moitié kotent. a) Exprimez les proportions ci-dessus en terme de probabilités sur ces deux événements. Si on tire au hasard un étudiant de première candidature, b) Quelle est la probabilité que cet étudiant kote ? c) Quelle est la probabilité que cet étudiant soit une fille si on sait qu’il kote ? 83. Une personne parie d’obtenir au moins 9 piles en jetant 25 fois une pièce équilibrée. Si elle réussit, elle reçoit 10 €, tandis qu’elle paie 90 € si elle échoue. a) Caractérisez la distribution de probabilité de la variable aléatoire X : « Bénéfice lors d’une partie ». b) Calculez le bénéfice moyen. 84. Soit A et B deux événements incompatibles définis pour une même épreuve. On sait que P(A) = 0,2 P(A ∪ B) = 0,7 Calculez : a) P(B) b) P(A ∩ BC) c) P(AC ∩ BC) 85. Simplifiez les expressions suivantes: a) (A ∩ B) ∪ (AC ∩ B) b) A ∩ (A ∪ B) c) B ∩ (A ∩ B) d) (A ∩ B)C ∪ A e) (AC ∩ BC) ∪ A f) (A ∪ B) ∩ B g) (AC ∪ BC) ∩ B Illustrez à l'aide de l'exemple du jet d'un dé pour lequel: A = {1,2} et B = {2, 4, 6} 86. Un étudiant doit suivre 2 cours de math (M1, M2), 3 cours de chimie (C1, C2, C3), et 4 cours de biologie (B1, B2, B3, B4). Il décide de n'assister qu'à 3 cours. a) De combien de manières différentes peut-il faire son choix ? b) S'il choisit au hasard, quelle est la probabilité qu'il assiste aux deux cours de math? c) S'il choisit au hasard, quelle est la probabilité qu'il n'assiste à aucun cours de math? d) S'il choisit au hasard, quelle est la probabilité qu'il n'assiste qu'à un cours de math? LPSP 1209 – Syllabus d’exercices / Version 2015 46 87. Pour une expérience aléatoire, on définit deux événements A et B tels que: - la probabilité qu'ils surviennent conjointement vaut 0.2 - la probabilité qu'aucun ne se réalise vaut 0.3 - la probabilité de B vaut 0.4. Que valent: P(A | B), P(B | A), P(BC | AC), P(A | A ∪ B), P(A | A ∩ B) ? 88. Les étudiants de 4 facultés ont élu deux représentants par faculté. On choisit ensuite 4 étudiants dans le groupe ainsi constitué. Chercher la distribution de probabilité du nombre de facultés représentées. 89. Dans un groupe de 50 personnes, on relève 10 personnes atteintes d'une maladie A, 12 d'une maladie B, 15 d'une maladie C et 13 d'une maladie D. Un moniteur veut former une équipe de football (11 joueurs). Il choisit 11 personnes au hasard. Quelle est la probabilité que cette équipe comprenne: a. 3 malades atteints de A, 3 malades atteints de B, 3 malades atteints de C et 2 malades atteints de D ? b. onze malades atteints de la même maladie ? 90. Dans une grande entreprise qui occupe 12 000 ouvriers, 8400 sont mariés. Dix ouvriers sont proposés à l'entretien des machines. Quelle est la probabilité que moins de 5 d'entre eux soient mariés ? 91. Un ensemble de scores de lecture obtenus par des enfants de quatrième année présente une moyenne de 25 et un écart-type de 5. Un ensemble de scores obtenus par des enfants de sixième année présente une moyenne de 30 et un écart-type de 10. Supposons des distributions normales. a) Faites un schéma approximatif des distributions de probabilité de ces variables en représentant les deux groupes sur la même figure. b) Quel pourcentage des élèves de quatrième année obtiennent de meilleurs scores que la moyenne des élèves de sixième année ? c) Quel pourcentage des élèves de sixième année obtiennent des scores inférieurs à la moyenne des élèves de quatrième année ? d) Dans quelles conditions obtiendrait-on les mêmes réponses aux points b) et c) ? e) Quelle est la probabilité qu'un élève de quatrième obtienne un meilleur résultat qu'un élève de sixième ? 92. Dans une bibliothèque se trouvent 10 livres en langues étrangères : 5 en anglais, 2 en allemand et 3 en russe. On prélève au hasard 5 de ces livres. a) Calculez la probabilité de chacun des événements suivants : 1) Trois livres sont en anglais et deux sont en russe. 2) Trois livres sont dans une langue et deux dans une autre. LPSP 1209 – Syllabus d’exercices / Version 2015 47 b) Soit X la variable aléatoire : nombre de volumes en russe dans les 5 livres prélevés. Déterminez la distribution de probabilité de probabilité de X, puis sa fonction de répartition et représentez-les graphiquement. 93. Une personne parie de faire au moins k fois pile en jetant 20 fois une pièce de monnaie bien équilibrée. Si elle y réussit, elle reçoit 10 F mais par contre doit payer 90 F si elle échoue. a) Pour quelles valeurs de k peut-elle espérer obtenir un bénéfice ? b) Calculez ce bénéfice pour la plus grande valeur de k trouvée ci-dessus. 94. Lors d'une réunion composée de 10 pédagogues et de 20 psychologues, deux personnes quittent la réunion à dix minutes d'intervalle. La première réintègre la réunion au bout de cinq minutes. On définit les événements suivants : B1 = la première personne qui sort est pédagogue B2 = la deuxième personne qui sort est pédagogue On demande de vérifier si a) les événements B1 et B2 sont indépendants b) les événements B1 et B2 sont équiprobables c) les événements B1 et B2 sont incompatibles Répondez aux mêmes questions mais en supposant que la première personne ne réintègre pas la réunion. LPSP 1209 – Syllabus d’exercices / Version 2015 48 Exercices supplémentaires sur l’inférence 95. Une pièce lancée 20 fois donne 13 piles. Peut-on conclure au seuil de signification α =0.05 que la pièce montre plus souvent pile que face. a) Donnez les hypothèses du test ainsi que la statistique employée. b) Déterminez R la région critique au seuil de signification donné et concluez. c) Et si pour un même nombre de lancers on avait obtenu face 13 fois, que pouvait-on conclure ? d) Et si la pièce avait été lancée 200 fois pour obtenir 150 piles aurait-on pu tirer les mêmes conclusions qu'en b) ? 96. a) Calculez un intervalle de confiance à un niveau de confiance de 95 % pour µ sur la base de l’échantillon : (13, 24, 12, 13, 17, 21, 25, 16, 18, 19) et sachant que X = 17,8 et s = 4.54. b) Calculez un intervalle de confiance à un niveau de confiance de 90 % pour σ² sur la base de ce même échantillon. 97. Deux groupes A et B se composent chacun de 300 personnes atteintes d'une certaine maladie. Un sérum est donné au groupe A mais pas au groupe B qui sert de groupe de contrôle. A part cela, les deux groupes subissent le même traitement. On constate que respectivement 225 et 195 personnes guérissent de la maladie. Peut-on considérer ce test comme efficace ? 98. On s’intéresse aux résultats d’élèves des communautés française et flamande de Belgique à un test de mathématique. Pour la Communauté française de Belgique on connaît la moyenne de l’ensemble des élèves : µ0=79 mais pas la variance. Pour la communauté flamande, on dispose d’un échantillon de 200 élèves qui ont obtenu pour moyenne X = 85 avec un écart-type s = 15. On se demande si la moyenne µ des élèves de la communauté flamande est plus grande que celle des élèves francophones. Testez au niveau α =0.05, l’hypothèse H0 : µ = µ0 contre H1 : µ > µ0 99. On suppose que l’écart-type des résultats des élèves de la communauté française vaut σ0 = 10, on désire tester si les élèves de la communauté flamande obtiennent des résultats significativement plus variables (on note σ2 la variance théorique des élèves flamands). Testez cette hypothèse au seuil α=0.05 : H0 : σ² = σ²0 contre H1 : σ² > σ²0 avec les données de l’ex précédent 100. Un professeur de collège estime que 70% de ses élèves réussiront l'examen de fin d'année, alors que ses collègues sont plus pessimistes. Il interroge 25 élèves au hasard : 16 ont un résultat supérieur à la moitié. Au seuil a = 0,05, à qui cette expérience donne-t-elle raison ? LPSP 1209 – Syllabus d’exercices / Version 2015 49 101. Dans une expérience en psychologie, deux experts sont amenés à coter (par un résultat /100) séparément le résultat de l’expérience. a) Le psychologue en charge de l’expérience se demande quel test utiliser pour vérifier si les deux experts donnent des résultats similaires. Que lui conseilleriez-vous s’il dispose de résultats donnés par les 2 experts pour 20 sujets différents ? b) Dans cette même étude, après réflexion, le psychologue croit que le juge B cote systématiquement plus haut que le juge A et désire tester l’hypothèse que le juge B donne en moyenne 10 points de plus que le juge A. Quel est le couple d’hypothèses à tester correspondant à cette affirmation en notant µA, la moyenne des points donnés par le juge A et µB par le juge B ? 102. Une psychologue de l’UCL s’intéresse à la façon dont les parents évaluent les capacités (intellectuelles et d’ouverture sociale) de leurs enfants. Pour ce faire, un questionnaire a été proposé à un échantillon de 100 couples, mères et pères concernant leurs enfants (1 par couple, dont 50 enfants de 7 ans et 50 enfants de 11 ans ; il y avait autant de filles que de garçons). Le résultat du questionnaire délivre un score sur /200 basé sur les réponses 40 questions (ordinales selon un échelle de Likert à cinq degrés (de 1 = pas du tout d’accord à 5 = tout à fait d’accord). Le psychologue désire vérifier plusieurs hypothèses à partir des résultats. Posez pour chaque question les hypothèses adéquates, les données concernées et le test que vous proposez d’utiliser pour les tester. a) Les mères ont en moyenne une vision plus positive de leur enfant que les pères. b) Les parents (père et mère réunis) ont tendance à répondre plus positivement aux questions quand l’enfant est plus jeune. c) Il y a une beaucoup plus grande diversité dans les résultats observés pour les pères quand ils évaluent une fille que quand ils évaluent un fils. d) Le test, issu des Etats-Unis, est connu comme donnant pour les enfants de 7 ans (F ou G) une moyenne 140. Les résultats observés à l’UCL concordent-ils avec cette référence américaine ? 103. Dans une enquête réalisée dans une entreprise, 15 personnes sur les 20 interrogées se déclarent satisfaites de leur travail. Sur cette base, on réalise un test d'hypothèse (sur une proportion au seuil α=0.05) pour vérifier si la proportion de personnes satisfaites de leur travail est plus grande que 50% et (hypothèse H1 : p>0.5) l’hypothèse H0 est rejetée. Supposez maintenant que vous disposiez d'un échantillon de taille 100 et que 75 personnes se déclarent satisfaites de leur travail. Si vous faites le même test d'hypothèse sur ces nouvelles données, dites quelles sont affirmations correctes sans faire de calcul : a) L'hypothèse H0 sera rejetée au seuil α=0.1 b) L'hypothèse H0 ne sera pas rejetée au seuil α=0.05 c) L'hypothèse H0 sera rejetée au seuil α=0.01 d) L'hypothèse H0 ne sera pas rejetée au seuil α=0.1 LPSP 1209 – Syllabus d’exercices / Version 2015 50