1.2 Notation
Les points suivants seront pris en compte :
— la pertinence de la démarche,
— la qualité du rapport,
— la qualité du code,
— la qualité de l’exposé et des réponses aux questions.
La notation portera très peu sur les scores de classification obtenus mais beaucoup plus sur la per-
tinence de la démarche ainsi que sur la compréhension des méthodes utilisées. Vous êtes encouragés
à utiliser toutes les méthodes qui vous sembleront utiles (qu’elles fassent ou non partie du cours,
et qu’elles fassent ou non partie d’une bibliothèque existante) mais il est essentiel que chacune des
méthodes utilisées soit comprise et puisse être expliquée (au moins dans ses grandes lignes) lors de
la soutenance.
1.3 Remarques
Dans le cadre de ce projet, il n’est pas nécessaire d’avoir un compte sur le site http://kaggle.org,
ni de soumettre des résultats sur le site. Les étudiants qui désirent comparer leurs résultats avec
ceux disponibles en ligne sont bien sûr libres de le faire.
Il n’est pas exigés que vous implantiez vous-même les méthodes utilisées, l’utilisation de bibliothèque
est acceptable et encouragée.
À titre d’exercice bonus, il est demandé une implantation complète de la méthode de la validation
croisée.
Remarque importante : vous êtes très vivement encouragés à poser des questions, soit pendant
les séances, soit par courriel.
2 Données
Les données sont disponibles sur la page des TDs :
— base d’apprentissage : http://www-connex.lip6.fr/~schwander/enseignement/2015-2016/
m2bigdata_apprentissage/titanic/train.csv,
— base de test : http://www-connex.lip6.fr/~schwander/enseignement/2015-2016/m2bigdata_
apprentissage/titanic/test.csv.
Attention, il ne s’agit pas directement des données fournies par le projet Kaggle mais de deux bases
construites à partir de la base d’apprentissage fournie sur Kaggle. En effet, le site ne fournit pas
vraiment de base de test puisque l’évaluation est censée être faite en soumettant des résultats dans
le cadre de la compétition. Il est possible d’utiliser les bases fournies par la compétition à condition
d’avoir un compte et de calculer les scores en soumettant un fichier sur le site, mais ça n’est pas
exigé dans ce projet.
Les deux fichiers de données, au format csv, sont organisées en différentes colonnes dont voici la
liste :
2