vement les valeurs des inputs et outputs pour les exemples d’apprentissage. Elle
devra renvoyer :
– Un vecteur feature.selected contenant les variables d’entrées (sous forme
d’indice se rapportant aux colonnes de la matrice X) pour lesquelles la
prédiction de l’algorithme était optimal.
– Une valeur err.pred, contenant l’estimation de l’erreur de prédiction du
modèle utilisé pour le subset optimal feature.selected déterminé par l’al-
gorithme de sélection de variables.
Nous fournissons ici l’algorithme de base :
n<-nombre de variables
feature.selected<-{}
feature.remaining<-{ensemble des variables}
Pour i de 1 à n
| Pour j dans feature.remaining
| | feature.act<-{feature.selected,j}
| | Erreur_j<-estimation de l’erreur par 10-fold cross validation
| | du modèle pour X,Y réduit aux entrées feature.act
| Fin pour
| Erreur_i<-Erreur minimale obtenue dans Erreur_j
| Rajouter à feature.selected l’indice de la variables dont la contribution
| a le plus minimisé l’erreur
| Enlever à feature.remaining ce même indice
Fin pour
Renvoyer la partie de feature.selected pour laquelle l’erreur Erreur_i fut
la plus basse, avec cette erreur
Le jeu de données à utiliser se trouve dans le fichier ’breastCancer.Rdata’. Ce
fichier contient :
– Une matrice d’entrées X, de 683 lignes (patientes) et 9 variables (données
physiologiques).
– Un vecteur de sortie Y de 683 valeurs, indiquant par 0 et 1 le type de
tumeur (benigne ou maligne).
C’est une version légèrement modifiée qui est plus facile à manipuler que celle
de la librarie dont ce jeu de données est issue (mlbench).
Référez-vous à l’aide de mlbench (http ://cran.r-project.org, package mlbench),
page 3, pour une description du dataset.
L’algorithme à utiliser est celui des K-Nearest Neighbors (KNN). Etant donné
un exemple (un vecteur x de valeurs pour l’ensemble des variables d’entrées), la
procédure de classification d’un K-NN est la suivante :
Classer par ordre croissant les différents exemples de la base
d’apprentissage en fonction de la distance par rapport à x
Selectionner un sous ensemble K des plus proches voisins
Retouner la classe majoritaire parmi les output y associées aux K plus
proches voisins
3