apprentissage semi

publicité
Apprentissage semi-supervisé
Extrait de :
http://www.public.asu.edu/~jye02
Position du Problème
Données avec labels
m
Labels des données
(0 ou 1)
n
But : prédire les labels
des données sans labels
X
Données sans labels
y
Apprentissage semi-supervisé
Apprentissage semi-supervisé pour améliorer les performances en
combinant les données avec labels (peu) et sans labels (beaucoup)
 Classification semi-supervisée (discrimination) : entraîner sur des
données avec labels et exploiter les données (beaucoup) sans labels
pour améliorer les performances
 Clustering semi-supervisé : clustering des données sans labels en
s'aidant des données avec labels ou paires de contraintes
Clustering
Apprentissage
Semi-supervisé
Classification
Hypothèse de classe

Hypothèse de base pour la plupart des algorithmes d'apprentissage
semi-supervisés

Points proches ont probablement le même label de classe
 Deux points qui sont connectés par un chemin traversant des régions
de forte densités doivent avoir le même label. Autrement dit les
frontières de décision doivent appartenir à des régions de faible densité.
Classification Inductive vs.Transductive

Transductive : Fournit le label uniquement pour les données
disponibles non labellisées


La sortie de la méthode n'est pas un classifieur
Inductive: Produit non seulement des labels pour données non
labellisées, mais aussi produit un classifieur
Exemple de Classification Semi-Supervisée
.
.
.
.
Exemple de Classification Semi-Supervisée
.
.
.
. ..
.. .
.. .
.
. .
. . .
. .
Exemple de Classification Semi-Supervisée
.
.
.
. ..
.. .
.. .
.
. .
. . .
. .
Deux approches algorithmiques

Méthodes à base de classifieur. On part de l'état initial d'un classifieur
et on l'améliore d'une manière itérative :

EM semi-supervisé
 Co-Training
 Mélange d'information complet ou incomplet de données

Méthodes à base de données. Découvrir la géométrie inhérente dans
les données et l'exploiter pour rechercher un bon classifieur :
Algorithmes à base de graphes

Régularisation manifold
 Mélange harmonique
 Régularisation d'information

hypothèses:


Connu : un ensemble de classes de données avec labels
But : améliorer la classification des exemples dans ces catégories
connues
Clustering Semi-Supervisé

Connaissance du domaine



Information partielle
Appliquer certaines contraintes (must-links et cannot links)
Approches

Search-based Semi-Supervised Clustering


Similarity-based Semi-Supervised Clustering


Modifier l'algorithme clustering en y intégrant les contraintes (mustlinks, cannot-links)
Modifier la mesure de similarités basée sur les contraintes
Combinaison des deux.
Clustering Semi-Supervisé : Exemple 1
.
.
.
. ..
.. .
.. .
.
. .
. . .
. .
Clustering Semi-Supervisé : Exemple 1
.
.
.
. ..
.. .
.. .
.
. .
. . .
. .
Clustering Semi-Supervisé : Exemple 2
.
.
.
. ..
.. .
.. .
.
. .
. . .
. .
Clustering Semi-Supervisé : Exemple 2
.
.
.
. ..
.. .
.. .
.
. .
. . .
. .
Clustering semi-supervisé :

Entrée :



Sortie :


Un ensemble d'objets sans labels, chacun est décrit par un
ensemble d'attributs (numériques ou catégoriels)
Une faible connaissance du domaine
Partitionnement des objets en k classes
Objectif :



Similarité intra-cluster maximum
Similarité inter-cluster minimum
Une grande consistance entre partition et connaissances du
domaine
Pourquoi clustering semi-supervisé ?

Pourquoi clustering seul insuffiant ?

Les classes obtenues peuvent ne pas être ceux demandées
 Parfois, il y a plusieurs choix de groupements

Pourquoi discrimination seule insuffisante ?


Parfois on n'a pas assez de données avec labels
Applications potentielles

Bioinformatique (clustering gêne et protéine)
 Construction de hiérarchies de documents
 Catégorisation de News/email
 catégorisation d'Images
Classification semi-supervisée c'est quoi ?

Utilise un faible nombre de données avec labels pour labelliser un
grand nombre de données sans labels


Idée de base


Labelliser est coûteux
Données similaires doivent avoir le même label de classe
Exemples



Classification pages Web
Classification de documents
Classification de protéines
K-Means Semi-Supervisé

Seeded K-Means:



Labeled data provided by user are used for initialization: initial
center for cluster i is the mean of the seed points having label i.
Seed points are only used for initialization, and not in subsequent
steps.
Constrained K-Means:


Labeled data provided by user are used to initialize K-Means
algorithm.
Cluster labels of seed data are kept unchanged in the cluster
assignment steps, and only the labels of the non-seed data are reestimated.
Seeded K-Means
Use labeled data to find
the initial centroids and
then run K-Means.
The labels for seeded
points may change.
Constrained K-Means
Use labeled data to find
the initial centroids and
then run K-Means.
The labels for seeded
points will not change.
Constrained K-Means Example
Constrained K-Means Example
Initialize Means Using Labeled Data
x
x
Constrained K-Means Example
Assign Points to Clusters
x
x
Constrained K-Means Example
Re-estimate Means and Converge
x
x
COP K-Means

COP K-Means [Wagstaff et al.: ICML01] is K-Means with must-link
(must be in same cluster) and cannot-link (cannot be in same cluster)
constraints on data points.

Initialization: Cluster centers are chosen randomly, but as each one is
chosen any must-link constraints that it participates in are enforced (so
that they cannot later be chosen as the center of another cluster).

Algorithm: During cluster assignment step in COP-K-Means, a point is
assigned to its nearest cluster without violating any of its constraints. If
no such assignment exists, abort.
Illustration
Determine
its label
Must-link
x
x
Assign to the red class
Illustration
Determine
its label
x
x
Cannot-link
Assign to the red class
Illustration
Determine
its label
Must-link
x
x
Cannot-link
The clustering algorithm fails
COP K-Means Algorithm
Other search-based algorithms
PC K-Means, Basu, et al.
w is the penalty matrix
Kernel-based semi-supervised clustering, Kulis, et al.
reward
Kernel K-Means
Overview of spectral clustering
1. Compute the similarity matrix W and D.
2. Form D 0.5WD 0.5
3. Form the matrix Y consisting of the first K
eigenvectors of D 0.5WD 0.5
4. Normalize Y so that all the rows have unit
lengths.
5. Run K-Means on the rows to get the K clusters.
(Ng, Jordan, and Weiss , NIPS’02) or
Apply an iterative optimization to get the
partition matrix. (Yu and Shi, ICCV’03)
Semi-supervised spectral clustering
1.
2.
3.
4.
5.
Compute the similarity matrix W and D.
For each pair of must-link (i,j), assign Wij  W ji  1
For each pair of cannot-link (i,j), assign Wij  W ji  0
Form the matrix D 0.5WD 0.5
Form the matrix Y consisting of the first K
eigenvectors of D 0.5WD 0.5
6. Normalize Y so that all the rows have unit lengths.
7. Run K-Means on the rows to get the K clusters.
(Ng, Jordan, and Weiss , NIPS’02) or
Apply an iterative optimization to get the
partition matrix. (Yu and Shi, ICCV’03)
Harmonic approach

Paper: Semi-Supervised Learning Using Gaussian Fields and
Harmonic functions. Zhu and et al.

Basics

Build the weighted graph
 The labels on the labeled data are fixed
 Determine the labels of the unlabeled data based on the cluster
Assumption
Intuition

Define a real-valued function f: V  R on G with certain properties.


Goal: determine the label of unlabeled data by f.
Intuition: Nearby points in the graph have the same label.
Optimization problem: Compute optimal f such that E(f) is minimized,
subject to the constraint that the values of f on labeled data are fixed.
Large weight
wij
f (i )  f ( j ) is small
Intuition
E ( f )   w(i, j ) f (i )  f ( j )
Non-differentiable
i, j
E ( f )   w(i, j ) f (i)  f ( j ) 
2
i, j
f: discrete
f : V  0,1
E ( f )   w(i, j ) f (i)  f ( j ) 
2
i, j
f : V  [0,1]
The values of f on labeled data are fixed.
Determine the labels
via thresholding
Main idea

Define a real-valued function f: V  R on G with certain properties.


Goal: determine the label of unlabeled data by f.
Intuition: Nearby points in the graph have the same label.
Optimization problem: Compute optimal f such that E(f) is minimized,
subject to the constraint that the values of f on labeled data are fixed.
Large weight
wij
f (i )  f ( j ) is small
Harmonic function


The optimization problem:
The optimal solution f is harmonic:
f  0
where
  D W
f  arg min
f |L  fl
E( f )
on unlabeled points
is the combinatorial laplacian.
E( f )  f (D  W ) f
T
d
E( f )  (D  W ) f  0
df
Optimal solution in matrix form
Wll Wlu 
W 

W
W
uu 
 ul
 Dll
D
0
0 
Duu 
 fl 
f  
 fu 
Wlu   f l 
Wll  Dll
(W  D) f  
0



Wuu  Duu   f u 
 Wul
Wul f l  (Wuu  Duu ) f u  0
f u  (Wuu  Duu ) 1Wul f l
Conclusion

Domaine assez vaste :

Clustering : K-means, Mixture, HMRF, Kernel K-means
 Projection : LLE, ISOMAP, Kernel PCA, ...

On doit se consacrer à un champ particulier selon sa sensibilité

Passer aux applications pour mettre en exergue la validité des
approches
Téléchargement