Méthodes d`apprentissage automatique pour la bioinformatique

publicité
Méthodes d'apprentissage automatique pour la
bioinformatique - BIOL-F-524
Projet de TP : Sélection de variables
Gianluca Bontempi - Olivier Caelen
18 Décembre 2009
1 Objectif
L'objectif du projet est
1. d'implémenter et d'évaluer diérentes méthodes de sélection de variables
pour un problème de classication,
2. de choisir parmi les méthodes que vous aurez implémenter celle qui vous
semble la plus performante en terme de précision, et de l'utiliser pour
prédire les classes d'un nouvel ensemble d'observations.
2 Données
Les variables d'entrées du problème sont des données issues d'analyses microarray de patient atteints de cancer, et la variable à prédire est une variable
binaire indiquant s'il s'agit d'un adénocarcinome (ADCA) du poumon ou d'un
mésothéliome (mesothelioma). Le jeu de données original est constitué de 121
observations, correspondant aux individus sur lesquels les analyses furent eectuées, et de 12533 variables, correspondant aux diérentes mesures microarray
obtenues pour chacune des analyses.
Le jeu de données original a été divisé en deux ensembles. Le premier contient
les entrées et sorties de 100 observations, et pourra être utilisé pour l'apprentissage. Le second contient les 21 observations restantes, pour lesquelles la variable
de sortie n'est pas fournie. Les données se trouvent dans le chier 'Projet.Rdata',
et sont les suivantes :
X.tr : Matrice de taille 100 × 12533, contenant les données d'entrée pour
l'apprentissage.
Y.tr : vecteur de taille 100, contenant les données de sortie pour l'apprentissage.
X.ts : Matrice de taille 21 × 12533, contenant des données d'entrée supplémentaires, pour lesquelles les données de sortie sont à prédire.
1
3 Spécications
La méthode de prédiction à utiliser est le KNN. Dans un premier temps,
vous évaluerez les performances du KNN en terme de pourcentage de classications correctes, en utilisant une méthode de validation telle que la 10-fold CV
ou le leave-one-out. Le but est ensuite d'implémenter diérentes méthodes de
sélection de variables, telles que la forward selection, le ranking, ou l'analyse en
composante principale. Vous pouvez également concevoir vous-même d'autres
approches (basées sur du clustering par exemple).
Après avoir évalué les performances de prédictives des diérentes approches,
vous choisirez celle qui vous semble la plus adaptée pour prédire les classes des
21 patients du jeu de données X.ts.
4 Compte rendu et deadline
Votre compte rendu sera composé
du code source commenté, éventuellement divisé en plusieurs chiers R.
d'un rapport décrivant les méthodes que vous aurez implémentées, et des
résultats obtenus sous forme de tableau ou graphiques. Le rapport devra
également préciser comment les résultats peuvent être obtenus à partir du
code fourni.
de la liste des prédictions pour les 21 patients du jeu de données, sous
forme d'un chier texte 'prediction.txt', avec une prédiction (ADCA ou
mesothelioma) par ligne.
Il sera à envoyer par mail avant le lundi 11 janvier à [email protected], sous
forme d'archive compressée au format ZIP.
Bon travail !
2
Téléchargement