K-plus proche Voisin (Régression)

publicité
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
K-plus proche Voisin (Régression)
k-PPV
Régression
L’apprentissage automatique (2016-2017)
UFR MIME
Université Lille 3
7 décembre 2016
Sommaire
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
1
Types des données
2
k-PPV Régression
Données quantitatives et qualitatives
K-plus proche
Voisin
(Régression)
Lille 3
Données quantitatives : valeurs numérique soit des
scalaires ou vecteurs en Rd
L’age, poids, salaires, tailles de maison, couleur (valeur)
Types des
données
k-PPV
Régression
Données qualitatives : valeurs catégorique ou des classes
couleur (nom), sexe, nationalité, mode de transport
(X) couleur
Vert
Jaune
Blanc
formes
cylindrique
cylindrique
cylindrique
firmes/pas
firme
mou
dur
(y) Classe
Légumes
Fruit
Grain
X et y sont catégorique
Classe / y ∈ { Fruit, Légumes, Grain } , forme ∈ { rond, cylindrique }
(X) # chambres
2
3
surface
127
106
énergie (grade)
1
3
Prix ($)
305000
275000
X , y sont numérique, X ∈ R3 et y ∈ R
Les variables quantitatives / qualitatives peuvent êtres
dans les sorties/entrées d’un problème d’apprentissage
supervisé
k-PPV 1 : Régression
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
Algorithme
Ensemble d’apprentissage (ou Training set) :
XTr := {(x1 , y1 ), x2 , y2 ), . . . , xN , yN )}
xi ∈ Rd et yi ∈ R
Pour une nouvelle entrée z qui vient dans le ensemble test !
Pour classification
fθ (z) = VoteMajoritaire{yi |i ∈ k-PPV(z)} dans XTr
Pour Régression
fθ (z) = ValeurMoyenneDe{yi |i ∈ k-PPV(z)} dans XTr
Pour calculer la k-plus proche voisin de x utliser la meme
algorithme d’avant
1. K plus proche voisin
Exemple
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
Valeurs Limites
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
k=1, trop compliqué
Valeurs Limites
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
k=2, compliqué
Valeurs Limites
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
k=5, bien !
Valeurs Limites
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
k=20, simplifié
Valeurs Limites
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
k=40, trop simplifié
Classification Vs Régression
K-plus proche
Voisin
(Régression)
Lille 3
Types des
données
k-PPV
Régression
La régression et utilisé pour prédire les valeurs continue
en étudiant la relation entres les variables d’entrés, et pour
classification on prédit les valeurs catégorique
Pour calculer la distance entres les valeurs catégorique il
nous faut une méthode de vectorisation qui associe une
valeur numérique a chaque valeur catégorique.
On peut classifier/régresser les données catégorique avec
les arbres de décision. (exemple médecin)
Évaluation de performance : Taux d’erreurs
# prédictions incorrecte
Classification : # échantillons
dans l’ensemble teste
PNtest
PNtest
Régression : i=1 (ciblei − predictioni )2 = i=1 (yi − ŷi )
Téléchargement