Cours de Machine Learning Promotion M1 SSICE A.U. 2018/19 La prédiction • De manière générale, nous aimerions prédire une valeur T à partir d’une observation x T= y(x,w) • Si T est discret : classification • Si T est continue : régression Apprentissage des paramètres à partir de données. Processus supervisé: K-means But: regrouper n individus en k classes telles que les individus d’une classe soient semblables et les classes assez bien séparées. Approche: obtenir une partition en K classes où k est fixé à priori. La plupart des techniques procèdent par améliorations successives d’une partition de départ. Processus supervisé: K-means Exemple • Personnes d'âge 27- 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57 • Ex : K=3 • Les 3 noyaux : les trois premières valeurs • distance = différence / (amplitude maximum) = différence / 37) 27 51 52 33 45 22 28 44 40 38 20 57 Noyau 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81 Noyau 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16 Noyau 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14 Minimum 0 0 0 0.16 0.16 0.14 0.03 0.19 0.3 0.3 0.19 0.14 Affectation 1 2 3 1 2 1 1 2 2 1 1 3 noyau 1 (27) : 27 - 33 - 22 - 28 - 38 - 20 noyau 2 (51) : 51 - 45 - 44 - 40 noyau 3 (52) : 52 - 57 5 • calcul des centroïdes : moyenne arithmétique du cluster – soit 28 pour noyau 1, 45 pour noyau 2 et 54.5 pour noyau 3 – Ces valeurs = positions des nouveaux noyaux • Recommençons le processus par rapport à ces valeurs 27 51 52 33 45 22 Noyau 28 0.03 0.62 0.65 0.14 0.46 0.16 Noyau 45 0.49 0.16 0.19 0.32 0 Noyau 54.5 0.74 0.09 0.07 0.58 Minimum 0.03 0.09 0.07 1 3 3 Affectation 44 40 38 20 57 0 0.43 0.32 0.27 0.22 0.78 0.62 0.46 0.03 0.14 0.19 0.68 0.32 0.26 0.88 0.72 0.28 0.39 0.45 0.93 0.07 0.14 0 0.16 0 0.03 0.14 0.19 0.22 0.07 1 2 1 1 2 2 2 1 3 6 28 L'affectation donne la répartition suivante : noyau 1 (28) : 27 - 33 - 22 - 28 - 20 Moyenne = 26 noyau 2 (45) : 45 - 44 - 40 - 38 Moyenne = 41.75 noyau 3 (54.5) : 51 - 52 - 57 Moyenne = 53.33 En réitérant le processus, aucune modification des affectations. STOP. Les clusters sont finalisés : Cluster 1: 27 - 33 - 22 - 28 – 20 , Jeunes majeurs - Centroïde = 26 Cluster 2: 45 - 44 - 40 – 38 , Quadragénaires-Centroïde= 41.75 Cluster 3: 51 - 52 - 57 , Quinquagénaires - Centroïde = 53.33 7