ACT 2040 – Hiver 2013
Démo 2
Exercices en R
- Importer la base de données baseFREQ :
baseFREQ = read.table("http://freakonometrics.free.fr/baseFREQ.csv", header=TRUE, sep=";",
encoding="latin")
1. Créer une sous-base “base2” en gardant seulement les lignes où exposition = 1, et
seulement les colonnes type_prof, sexe, age, et nbsin. Répondre aux questions suivantes
à partir de cette sous-base.
2. Ajouter une variable accident égale à TRUE lorsque l’assuré a eu au moins 1 accident,
FALSE sinon.
3. Calculer la probabilité (empirique) d’avoir au moins un accident durant une année pour
un assuré pris au hazard.
4. Calculer cette même probabilité pour chaque catégorie de profession.
5. Créer une variable cat.age (“18-25”, “25-65”, “65-100”).
6. Faire une regression logistique : accident ~ type_prof + sexe + cat.age
7. Utiliser cette regression pour prédire :
a) la probabilité qu’un assuré (type_prof=”Professeur”, sexe=”M”, cat.age=”25-
65”) ait un accident.
b) la prediction (accident=TRUE ou FALSE) pour chaque ligne dans base2. Quelle
est la proportion de lignes correctement predites ?
Bonus :
- À partir de “baseFREQ”, calculer :
1. pour chaque profession, le nombre d’assurés differents (un seul assuré peut apparaître
sur plusieurs lignes; un assuré est identifié par la variable numeropol).
2. pour chaque profession, le plus grand nombre total de sinistres réclamés par un même
assuré.