Méthodes d'apprentissage automatique pour la bioinformatique - BIOL-F-524 Projet de TP : Sélection de variables Gianluca Bontempi - Olivier Caelen 18 Décembre 2009 1 Objectif L'objectif du projet est 1. d'implémenter et d'évaluer diérentes méthodes de sélection de variables pour un problème de classication, 2. de choisir parmi les méthodes que vous aurez implémenter celle qui vous semble la plus performante en terme de précision, et de l'utiliser pour prédire les classes d'un nouvel ensemble d'observations. 2 Données Les variables d'entrées du problème sont des données issues d'analyses microarray de patient atteints de cancer, et la variable à prédire est une variable binaire indiquant s'il s'agit d'un adénocarcinome (ADCA) du poumon ou d'un mésothéliome (mesothelioma). Le jeu de données original est constitué de 121 observations, correspondant aux individus sur lesquels les analyses furent eectuées, et de 12533 variables, correspondant aux diérentes mesures microarray obtenues pour chacune des analyses. Le jeu de données original a été divisé en deux ensembles. Le premier contient les entrées et sorties de 100 observations, et pourra être utilisé pour l'apprentissage. Le second contient les 21 observations restantes, pour lesquelles la variable de sortie n'est pas fournie. Les données se trouvent dans le chier 'Projet.Rdata', et sont les suivantes : X.tr : Matrice de taille 100 × 12533, contenant les données d'entrée pour l'apprentissage. Y.tr : vecteur de taille 100, contenant les données de sortie pour l'apprentissage. X.ts : Matrice de taille 21 × 12533, contenant des données d'entrée supplémentaires, pour lesquelles les données de sortie sont à prédire. 1 3 Spécications La méthode de prédiction à utiliser est le KNN. Dans un premier temps, vous évaluerez les performances du KNN en terme de pourcentage de classications correctes, en utilisant une méthode de validation telle que la 10-fold CV ou le leave-one-out. Le but est ensuite d'implémenter diérentes méthodes de sélection de variables, telles que la forward selection, le ranking, ou l'analyse en composante principale. Vous pouvez également concevoir vous-même d'autres approches (basées sur du clustering par exemple). Après avoir évalué les performances de prédictives des diérentes approches, vous choisirez celle qui vous semble la plus adaptée pour prédire les classes des 21 patients du jeu de données X.ts. 4 Compte rendu et deadline Votre compte rendu sera composé du code source commenté, éventuellement divisé en plusieurs chiers R. d'un rapport décrivant les méthodes que vous aurez implémentées, et des résultats obtenus sous forme de tableau ou graphiques. Le rapport devra également préciser comment les résultats peuvent être obtenus à partir du code fourni. de la liste des prédictions pour les 21 patients du jeu de données, sous forme d'un chier texte 'prediction.txt', avec une prédiction (ADCA ou mesothelioma) par ligne. Il sera à envoyer par mail avant le lundi 11 janvier à [email protected], sous forme d'archive compressée au format ZIP. Bon travail ! 2