Poster de la Journée scientifique 2014 - ARC 6 - Région Rhône

ARC 6 : Technologies de l’Information et de la Communication
et Usages Informatiques Innovants
Dispositifs,
systèmes, calcul et
logiciels
Nouveaux cadres théoriques en apprentissage de métriques
Application à la gestion de l’énergie
Résumé : L'importance des métriques dans l'apprentissage automatique a déterminé récemment une croissance de l'intérêt accordé à l'apprentissage de distances et de
similarités. Néanmoins, le domaine manque de résultats sur les garanties théoriques que l'on peut attendre sur la capacité de généralisation de la métrique apprise ou du
classifieur utilisé. Nous présentons un nouveau cadre pour l'apprentissage semi-supervisé de la métrique et d'un séparateur global, possédant des garanties de
consistance basées sur la robustesse algorithmique pour quelques fonctions de similarité locales concrètes.
Mots-clef : apprentissage semi-supervisé, fonction de similarité, robustesse algorithmique.
POINTS CLES
TRAVAUX ENGAGES / RESULTATS
Contexte : apprentissage de modèles de prédiction à
partir de données.
Objectif : améliorer la capacité de prédiction.
Méthode : fournir de nouveaux cadres théoriques et des
algorithmes pour l'apprentissage automatique de
métriques.
PROBLEMATIQUE
Formalisation
● problème de classification binaire
○ {x1...xN}, vecteurs numériques
○ {y1...yN}, les étiquettes binaires des points d’entrée
● but : apprendre un séparateur global ⍺ des catégories
● cadre semi-supervisé : seulement une partie des données sont
étiquetées
● forme générique de la fonction de similarité KA
● objectif d’optimisation sur ⍺ et A :
Les métriques jouent un rôle crucial dans un grand nombre de
méthodes d'apprentissage automatique.
Fonctions de similarité
Exemples : distance euclidienne, similarité cosinus.
Limitation : la notion de bonne métrique dépend du problème.
Solution : apprendre la métrique à partir des données.
Résultats théoriques
● preuve de robustesse algorithmique de notre approche
● permet de borner l’erreur de généralisation avec probabilité 1-
Processus d’apprentissage :
Distribution
des données
Échantillon
Apprentissage
de métriques
Métrique
apprise
Apprentissage
automatique
Modèle
appris
Prédiction
Apprentissage de métriques
● trouver une nouvelle représentation des données
● la métrique est généralement paramétrée par une matrice A
Domaines d’application
● vision par ordinateur
● recherche d’information
● bio-informatique
● exemples : comparaison d’objets, recommandation de
musique, vérification d’identité.
où B est une borne de la fonction de coût, dl est la quantité de données,
M est défini par la robustesse et dépend de la topologie
● résultat valable pour toute fonction de similarité k-lipschitz.
Perspectives
● adaptation de notre approche aux données structurées
● application de la méthode à la gestion d’énergie : données de
consommation électrique fournies par Schneider Electric.
Remerciements: ce projet est soutenu financièrement par la Région
Rhône-Alpes.
Maria-Irina Nicolae1
[email protected]
1
2
Directeurs
:
Marc
Sebban
,
Eric
Gaussier
1
2
Université Jean Monnet, Université Joseph Fourier