Apprentissage non supervisé
Hélène Milhem
Institut de Mathématiques de Toulouse, INSA Toulouse, France
IUP SID, 2011-2012
H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 1 / 25
Introduction
Répartir les données en plusieurs classes
Isur la seule base des échantillons d’apprentissage.
IPas de cible !
IRecherche de structures naturelles dans les données.
Optimiser un critère visant à regrouper les individus dans des
classes,
Ichacune le plus homogène possible,
Iet, entre elles, les plus distinctes.
H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 2 / 25
Introduction
Différentes méthodes :
1Classification hiérarchique.
FRegrouper itérativement les individus, en commençant par le bas (les
2 plus proches) et en construisant un dendogramme.
FIl faut calculer à chaque étape, la distance entre un individu et un
groupe et celle entre 2 groupes.
FNombre de classes déterminer a posteriori.
2Classification par réallocation dynamique : k-moyennes.
FNombre de classes kfixé a priori.
FInitialisation de kcentres de classes par tirages aléatoires.
FAffectation des individus à la classe dont le centre est le plus proche.
FCalcul du barycentre des classes qui deviennent les nouveaux
centres.
FItération du processus.
H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 3 / 25
Mesures d’éloignement Indice de ressemblance ou similarité
Notons Ω = {1,· · · ,n}l’ensemble des individus.
Similarité = mesure de proximité définie de ×dans R+,
vérifiant :
Is(i,j) = s(j,i)(i,j)×: symétrie,
Is(i,i) = S>0,i: ressemblance d’un individu à lui-même,
Is(i,j)S,(i,j)×: la ressemblance est majorée par S.
Indice de ressemblance normé sest défini à partir de spar
s(i,j) = 1
Ss(i,j),(i,j)×.
sest une application de ×dans [0;1].
H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 4 / 25
Mesures d’éloignement Indice de dissemblance ou dissimilarité
Une dissimilarité est une application dde ×dans R+
vérifiant :
Id(i,j) = d(j,i),(i,j)×: symétrie,
Id0i,i) = 0,i: nullité de la dissemblance d’un individu avec
lui-même.
Si sest un indice de similarité alors
d(i,j) = Ss(i,j),(i,j)×
est un indice de dissemblance.
Si dest un indice de dissemblance avec D=sup
(i,j)ω×
d(i,j), alors
s(i,j) = Dd(i,j)est un indice de ressemblance.
Un indice de dissemblance normé est défini par :
d(i,j) = 1
Dd(i,j)(i,j)×,
avec d=1s.
H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 5 / 25
1 / 25 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !