Telechargé par chebbi mejdi

ML K means

publicité
Cours de Machine Learning
Promotion M1 SSICE
A.U. 2018/19
La prédiction
• De manière générale, nous aimerions prédire une
valeur T à partir d’une observation x
T= y(x,w)
• Si T est discret : classification
• Si T est continue : régression
 Apprentissage des paramètres à partir de données.
Processus supervisé: K-means
But:
regrouper
n individus en k classes telles que
les individus d’une classe soient semblables et
les classes assez bien séparées.
Approche:
obtenir
une partition en K classes où k est fixé
à priori.
La plupart des techniques procèdent par
améliorations successives d’une partition de
départ.
Processus supervisé: K-means
Exemple
• Personnes d'âge 27- 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57
• Ex : K=3
• Les 3 noyaux : les trois premières valeurs
• distance = différence / (amplitude maximum) = différence / 37)
27
51
52
33
45
22
28
44
40
38
20
57
Noyau 27
0.00
0.65
0.68
0.16
0.49
0.14
0.03
0.46
0.35
0.30
0.19
0.81
Noyau 51
0.65
0.00
0.03
0.49
0.16
0.78
0.62
0.19
0.30
0.35
0.84
0.16
Noyau 52
0.68
0.03
0.00
0.51
0.19
0.81
0.65
0.22
0.32
0.38
0.86
0.14
Minimum
0
0
0
0.16
0.16
0.14
0.03
0.19
0.3
0.3
0.19
0.14
Affectation
1
2
3
1
2
1
1
2
2
1
1
3
noyau 1 (27) : 27 - 33 - 22 - 28 - 38 - 20
noyau 2 (51) : 51 - 45 - 44 - 40
noyau 3 (52) : 52 - 57
5
• calcul des centroïdes : moyenne arithmétique du cluster
– soit 28 pour noyau 1, 45 pour noyau 2 et 54.5 pour noyau 3
– Ces valeurs = positions des nouveaux noyaux
• Recommençons le processus par rapport à ces valeurs
27
51
52
33
45
22
Noyau 28
0.03
0.62
0.65
0.14
0.46
0.16
Noyau 45
0.49
0.16
0.19
0.32
0
Noyau 54.5
0.74
0.09
0.07
0.58
Minimum
0.03
0.09
0.07
1
3
3
Affectation
44
40
38
20
57
0
0.43
0.32
0.27
0.22
0.78
0.62
0.46
0.03
0.14
0.19
0.68
0.32
0.26
0.88
0.72
0.28
0.39
0.45
0.93
0.07
0.14
0
0.16
0
0.03
0.14
0.19
0.22
0.07
1
2
1
1
2
2
2
1
3
6
28
L'affectation donne la répartition suivante :
noyau 1 (28) : 27 - 33 - 22 - 28 - 20
Moyenne = 26
noyau 2 (45) : 45 - 44 - 40 - 38
Moyenne = 41.75
noyau 3 (54.5) : 51 - 52 - 57
Moyenne = 53.33
En réitérant le processus, aucune modification des affectations. STOP.
Les clusters sont finalisés :
Cluster 1: 27 - 33 - 22 - 28 – 20 , Jeunes majeurs - Centroïde = 26
Cluster 2: 45 - 44 - 40 – 38
, Quadragénaires-Centroïde= 41.75
Cluster 3: 51 - 52 - 57
, Quinquagénaires - Centroïde = 53.33
7
Téléchargement