Learning with labeled and unlabeled data

Téléchargement

Introduction Approches principales Conclusion

Rapport de ﬁn de première année de thèse (!)

de Matthias Seeger, 2002

Institute for Adaptive and Neural Computation

University of Edinburgh

mardi 25 septembre 2007

Introduction Approches principales Conclusion

Apprentissages standard

Introduction

Apprentissage

A des ﬁns de "compression", pour représenter les données par un

"modèle".

Recherche d’une structure sous-jacente dans les données.

Principe de parcimonie (rasoir d’Occam) : rechercher a priori une

structure "simple".

Notations

Données : x∈X

Etiquettes : t∈T

Données étiquetées : Dl={(xi,ti)|i=1,··· ,n}

Données non-étiquetées : Du={xi|i=1,··· ,m}

Introduction Approches principales Conclusion

Apprentissages standard

Apprentissage supervisé

Objectif

Déterminer une relation probabiliste P(x,t)entre les données et

les étiquettes

A partir d’un ensemble de données étiquetées Dluniquement

Utilité de l’apprentissage

|T|<∞, problème de classiﬁcation ou reconnaissance de formes

T⊂R, problème de régression ou d’estimation

Problème de la généralisation

Problème mal-posé car l’ensemble des données étiquetées est de

cardinal ﬁni

Il faut donc déterminer une relation P(x,t)qui reste représentative

quand on augmente le volume de données

Introduction Approches principales Conclusion

Apprentissages standard

Apprentissage non-supervisé

Cadre complètement différent

On dispose uniquement de données non-étiquetées Du

supposées issues d’une distribution source P(x)

On ne connaît pas a priori l’ensemble Tdes étiquettes

Objectif

Recherche d’une "structure intéressante" si possible simple

(principe de parcimonie)

Cette structure est supposée "cachée" dans les données,

notamment à cause du bruit

Approche générative

Estimation de la densité des données P(x)

P(x)est la superposition de modèles P(x|t)ajustés aux données

La "simplicité" des modèles P(x|t)est contrôlée par régularisation

Introduction Approches principales Conclusion

Apprentissage semi-supervisé

Et le semi-supervisé là-dedans ?

Deux techniques opposées

Supervisé : on connaît parfaitement les données, mais souvent en

nombre insufﬁsant, d’où le problème de généralisation

Non-supervisé : on dispose d’une masse de données

non-étiquetées mais souvent sans connaissance autre

Semi-supervisé

On dispose de quelques données étiquetées,

ET de beaucoup de données non-étiquetées

Combinaison des avantages des deux méthodes

Les données étiquetées permettent de se faire une idée de la

structure de P(x)

Les données non-étiquetées aident à aborder le problème de la

généralisation

1 / 22 100%

Documents connexes

Projet 3 : Algorithme des centres moblies (K

Clustering

Arbres de décision k-means

K-means et ACP : TP d'apprentissage statistique

Le fonctionnement de l`objet technique

TITRE (SUR UNE OU PLUSIEURS LIGNES)

Apprentissage supervisé (suite)

cours - LISIC

Chapitre 2 : k-Means - DSpace à Université abou Bekr Belkaid

Architecture des bases d`images généralistes - CEUR

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Learning with labeled and unlabeled data

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Learning with labeled and unlabeled data

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib