Nom: Date: Note Travail Pratique 2 R concepts, variables aléatoires

advertisement
Nom: ________________________________________________________ Date: __________________________________
Note ________________
Travail Pratique 2
R concepts, variables aléatoires et distributions de probabilité (pratique),
statistiques descriptives
Objectifs
 Améliorer votre compréhension de la philosophie du logiciel R
 Utiliser cette compréhension pour voir le logiciel du point de vue de la transparence
dans la recherche basée sur des programmes informatiques
 Consolider votre connaissances des distributions de probabilités et de leurs
applications, et d'appliquer les statistiques descriptives les plus courantes.
Pondération (total: 100 points)
 Section 1: 40 points
 Section 2: 20 points
 Section 3: 40 points
 Vous devez inscrire (sections 1.1 – 3.13) vos réponses directement dans ce fichier
word (.doc). Aucune réponse transcrite à la main ne sera acceptée.
Remerciements
Une partie de ce travail pratique est basé sur le cours et les instructions de laboratoire de
Susan Holmes, membre de l’Université de Stanford, et Karla Karstens, membre de
l’Université de Vermont.
Section 1.1 les concepts sous-jacents au logiciel R peuvent-ils répondre à la demande
de programmes informatiques ouverts en recherche scientifique? (40 points)
Vous devez lire deux articles; Ihaka et Messieurs (1996) et Ince et al. (2012). Le premier
article porte sur les idées et les concepts derrière R, le second soulève la question de la
transparence concernant l'utilisation de programmes informatiques ouverts dans la
recherche scientifique. Je ne m’attends pas à ce que vous compreniez pleinement les deux
articles, mais j'espère que vous comprendrez les notions clés pour répondre aux questions
suivantes en deux pages (questions 1.1 à 1.6: une page; la question 1.7: une page).
1.1 Selon Ince et al. (2012), qu’est-ce que la reproductibilité et comment est-elle liée à la
philosophie scientifique? (5 points)
1.2 Selon Ince et al. (2012), pourquoi les descriptions des codes linguistiques sont-elles
insuffisantes? (5 points)
1.3 Selon Ince et al. (2012), quels sont les obstacles associés aux programmes informatiques
ouverts qui accompagnent les articles scientifiques et qu'est-ce que les auteurs proposent
1
pour surmonter ces obstacles? (5 points)
1.4 Selon Ihaka et Gentleman (1996), Quelle est le rôle des fonctions dans R? (5 points)
1.5 Qu’est-ce que le «lazy evaluation» et pourquoi est-ce utile? (3 points)
1.6 Quelle est la «portability» et quel est son rôle dans le développement de R? (2 points)
1.7 D'après ce que vous savez sur R jusqu’à maintenant, est-ce que les idées sous-jacentes à
R (par exemple, «open source») et son infrastructure basée sur la communauté
(http://www.r-project.org/) peuvent répondre efficacement à l’appel de Ince et al.
(2012) pour des programmes informatiques ouverts applicables à la recherche
scientifique? (15 points)»
Section 1.2 Variables aléatoires et distributions de probabilité (20 points)
Jetez un œil sur les deux tutoriels à propos des distributions de probabilité:
http://www.cyclismo.org/tutorial/R/probability.html
http://www.r-tutor.com/elementary-statistics/probability-distributions
et examinez attentivement les fonctions disponibles pour les distributions normale, de
Poisson et binomiales. En utilisant la CDF, calculer les probabilités indiquées ci-dessous.
Fournir le code que vous avez utilisé.
1.2.1 Probabilité qu'une variable aléatoire normale de moyenne 20 et de variance 28 (8
points)
 soit comprise entre 14,2 et 13,5
 soit supérieure à 21
 soit inférieur à 12
 soit inférieur à 11 ou supérieur à 31
1.2.2 Probabilité qu’en 60 lancers d'une pièce de monnaie, on obtienne une face: (6 points)
 12, 24 ou 36 fois
 moins de 15 fois
 entre 25 et 35 fois
1.2.3 Une variable aléatoire X a une distribution de poisson avec une moyenne de 8.
Calculer les probabilités que : (6 points)
 X soit inférieure à 3
 X soit supérieure à 9
 X soit comprise entre 5 et 12
2
Section 1.3 Statistiques descriptives (40 points)
1.3.1 Cette section est basée sur les données du tableau ci-dessous. Créez un data.frame
nommé ”summer.job” qui a pour noms de colonnes ”names”, ”type”, ”average.hours” et
”hourly.wage”. Fournir le code que vous avez utilisé pour créer le data.frame. (4 points)
1.3.2 Quels sont les types de données des quatre colonnes du data.frame « summer.job »
que vous venez de créer: décrire chaque variable et indiquer s'il s'agit d'un type de données
qualitatives ou quantitatives. (8 points)
1.3.3 Considérez la variable "type". Affichez les résultats en utilisant une distribution de
fréquence avec les fréquences relatives. (2 points)
1.3.4 Considérez la variable "type". Affichez les résultats visuellement à l'aide d'un
graphique approprié. Décrivez le graphique. (2 points)
1.3.5 Considérez la variable « type ». Calculez les statistiques descriptives suivantes:
moyenne arithmétique, écart-type, médiane, écart interquartile, boxplot, le mode et la
fréquence relative des « type ». Fournir le code que vous avez écrit et les résultats. Indiquer
la(les) statistique(s) descriptive(s) les plus appropriées pour « type » et expliquez votre
choix. (4 points)
1.3.6 Quelle est la probabilité qu’un étudiant choisi aléatoirement ait un travail de
«babysitting»? (2 points)
3
1.3.7 Considérez la variable « average.hours ». Affichez les résultats en utilisant une
distribution de fréquence avec les fréquences relatives. (2 points)
1.3.8 Considérez la variable « average.hours ». Affichez les résultats visuellement à l'aide
d'un graphique approprié. Décrivez la distribution (symétrique, asymétrique, etc.). (2
points)
1.3.9 Considérez la variable « average.hours ». Calculer les statistiques descriptives
suivantes: moyenne arithmétique, écart-type, médiane, écart interquartile, boxplot, le mode
et la fréquence relative des « average.hours ». Fournir le code que vous avez utilisé et les
résultats. Indiquer la (les) statistique(s) descriptive(s)la (les) plus appropriée(s) pour
"hourly.wage" et expliquez votre choix. (4 points)
1.3.10 Considérez la variable « average.hours ». Un de vos amis vous dit qu'il a travaillé en
moyenne 30 heures par semaine pendant l'été. Son temps travaillé serait-il considéré
comme un événement inhabituel? Expliquez votre réponse. (2 points)
1.3.11 Considérez la variable « hourly.wage ». Créer un histogramme avec 5 classes.
Décrivez la distribution (symétrique, uniforme ou asymétrique). (2 points)
1.3.12 Considérez la variable « hourly.wage ». Calculez les statistiques descriptives
suivantes: moyenne arithmétique, écart-type, médiane, écart interquartile, boxplot, le mode
et la fréquence relative des « hourly.wage ». Fournir le code que vous avez utilisé et les
résultats. Indiquer la (les) statistique(s) descriptive(s) la (les) plus appropriée(s) pour
"hourly.wage" et expliquez votre choix. (4 points)
1.3.13 Considérez la variable " hourly.wage ". Si un de vos amis vous dit que son salaire
horaire était de 5,00 $, est-ce que cela serait considéré comme une donnée aberrante?
Expliquez votre réponse. (2 points)
4
Téléchargement