●On dispose de données d'apprentissage (training data) pour
lesquelles chaque observation dispose d'une classe y. Si le
problème est à 2 classes, y est binaire.
●L'idée de l'algorithme des knn est pour une nouvelle
observation (u1, u2,..., up) de prédire les k observations lui étant
les plus similaires dans les données d'apprentissage.
●...et utiliser ces observations pour classer l'observation dans
une classe .
●Si on connaissait la fonction f, on aurait juste qu'à calculer
En pratique on peut identifier les observations des données
d'apprentissage, collecter les valeurs y associées à ces
observations (et procéder à une sorte d'interpolation)