K-moyennes

Téléchargement

Remise `a niveau en langage C et en IA : Clustering

M2 SIIC

Pierre Andry

Universit´e de Cergy Pontoise

[email protected]

K-moyennes

L’algorithme des K-moyennes est un algorithme de classiﬁcation automatique. A partir d’un nombre de parti-

tions initiales, on cherche `a am´eliorer it´erativement le partitionnement. Chaque partition est repr´esent´ee par

un noyau, il y a donc k noyaux. Au cours des it´erations, on cherche `a minimiser le crit`ere de distance des K

noyaux aux clusters que l’on constitue. Voici l’algorithme :

1. D´eterminer le nombre k, de centres, c’est `a dire le nombre de partitions que l’on souhaite eﬀectuer.

2. Choisir al´eatoirement K noyaux parmis les ´echantllons.

3. tant que la convergence n’est pas atteinte (tant que des ´echantillons changent de groupes):

(a) D´eterminer, pour chaque element de l’ensemble `a cat´egoriser, le centre le plus proche.

(b) Red´eﬁnir, pour chaque classe le nouveau noyau (l’´echantillon au centre de la classe).

Application dans un espace g´eom´etrique

Nous allons appliquer l’algorithme des k-moyennes `a un ensemble de points d´eﬁnis dans un espace g´eom´etrique

en 2 dimensions. Nous programmerons l’algorithme en C avec une sortie des calculs sur ﬁchier texte pour un

aﬃchage avec gnuplot.

1. Vous d´eﬁnirez dans le .h (par des directives #DEFINE) le nombre d’elements de l’´echantillon (par exemple

200 et le nombre K de noyaux (par exemple K). Vous deﬁnirer aussi une directive FILE ON qui permet

d’aﬃcher les resultats dans un ﬁchier, ou `a l’ecran si elle n’est pas deﬁnie (vous utiliserez fprintf sur stdout

dans ce cas).

2. Vous ´ecrirez la structure Data qui contiendra les coordonn´ees x et y d’un ´el´ement de l’´echantillon, ainsi

que d’un champ permettant d’indiquer quel est le noyau de cet ´echantillon (soit un entier, soit un pointeur

sur l’´el´ement noyau de la classe). L’´echantillon sera un tableau de 200 Datas

3. creez un tableau de k pointeurs sur Datas (chaque pointeur pointera sur l’´el´ement Data s´electionn´e)

4. Ecrivez la fonction qui initialise les 200 points par des valeurs al´eatoires `a des coordonn´ees comprises entre

0 et 100.

5. Ecrivez la fonction qui initialise (par tirage al´eaoire) les K noyau (et aﬀecte les k pointeurs)

6. D´eterminez, pour chaque element de l’ensemble `a cat´egoriser, le centre le plus proche (distance euclidi-

enne). Cette fonction sera it´er´ee jusqu’`a convergence.

7. Red´eﬁnissez, pour chaque classe le nouveau noyau (l’´echantillon au centre de la classe) , c’est a dire

l’´el´ement Data le plus proche de la moyenne des coordonn´ees du tableau. Cette fonction sera it´er´ee

jusqu’`a convergence.

8. A chaque it´eration, sauvegardez dans k ﬁchiers diﬀ´erents les coordonn´ees des points qui appartiennent a

chaque classe. Aﬃchez vos r´esultats avec gnuplot.

1 / 1 100%

Documents connexes

Télécharger

Séance 09

algorithme algorithme -bases -une

Télécharger

activite 5 : observation du noyau d`une cellule animale

1 L`anneau Z/NZ 2 Groupes

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Devoir 1 - Stephane Boucheron

Examen Intelligence Artificielle - Master 1

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

K-moyennes

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

K-moyennes

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib