K-plus proche Voisin (Régression) Lille 3 Types des données K-plus proche Voisin (Régression) k-PPV Régression L’apprentissage automatique (2016-2017) UFR MIME Université Lille 3 7 décembre 2016 Sommaire K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression 1 Types des données 2 k-PPV Régression Données quantitatives et qualitatives K-plus proche Voisin (Régression) Lille 3 Données quantitatives : valeurs numérique soit des scalaires ou vecteurs en Rd L’age, poids, salaires, tailles de maison, couleur (valeur) Types des données k-PPV Régression Données qualitatives : valeurs catégorique ou des classes couleur (nom), sexe, nationalité, mode de transport (X) couleur Vert Jaune Blanc formes cylindrique cylindrique cylindrique firmes/pas firme mou dur (y) Classe Légumes Fruit Grain X et y sont catégorique Classe / y ∈ { Fruit, Légumes, Grain } , forme ∈ { rond, cylindrique } (X) # chambres 2 3 surface 127 106 énergie (grade) 1 3 Prix ($) 305000 275000 X , y sont numérique, X ∈ R3 et y ∈ R Les variables quantitatives / qualitatives peuvent êtres dans les sorties/entrées d’un problème d’apprentissage supervisé k-PPV 1 : Régression K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression Algorithme Ensemble d’apprentissage (ou Training set) : XTr := {(x1 , y1 ), x2 , y2 ), . . . , xN , yN )} xi ∈ Rd et yi ∈ R Pour une nouvelle entrée z qui vient dans le ensemble test ! Pour classification fθ (z) = VoteMajoritaire{yi |i ∈ k-PPV(z)} dans XTr Pour Régression fθ (z) = ValeurMoyenneDe{yi |i ∈ k-PPV(z)} dans XTr Pour calculer la k-plus proche voisin de x utliser la meme algorithme d’avant 1. K plus proche voisin Exemple K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression Valeurs Limites K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression k=1, trop compliqué Valeurs Limites K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression k=2, compliqué Valeurs Limites K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression k=5, bien ! Valeurs Limites K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression k=20, simplifié Valeurs Limites K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression k=40, trop simplifié Classification Vs Régression K-plus proche Voisin (Régression) Lille 3 Types des données k-PPV Régression La régression et utilisé pour prédire les valeurs continue en étudiant la relation entres les variables d’entrés, et pour classification on prédit les valeurs catégorique Pour calculer la distance entres les valeurs catégorique il nous faut une méthode de vectorisation qui associe une valeur numérique a chaque valeur catégorique. On peut classifier/régresser les données catégorique avec les arbres de décision. (exemple médecin) Évaluation de performance : Taux d’erreurs # prédictions incorrecte Classification : # échantillons dans l’ensemble teste PNtest PNtest Régression : i=1 (ciblei − predictioni )2 = i=1 (yi − ŷi )