Introduction

publicité
Apprentissage et Fouilles de données
FilterBoost: Regression et Classification
On Large Datasets
Joseph K. Bradley
et
Robert E.Schapire
Salma Najar
20 Mars 2008
•
Plan
• Introduction
• Filterboost
• Analyse
• Expérimentations
• Conclusion
Introduction
• Analyse
FilterBoost
Expérimentations
Introduction
Problématique
• Introduction • Problématique & motivations • Travaux antérieurs
Introduction
Conclusion
Motivation
• Contribution
• Conclusion
Batch Boosting
• Weak Learner
• S: Ensemble fixe d’exemple d’entrainement
• Après T ronds
+
-
-
-
Hypothèse
ht Finale
Booster
H
+
Dt
εt
αt
Introduction
FilterBoost
• Analyse
Introduction
Problématique
• Introduction • Problématique & motivations • Travaux antérieurs
Problématique
Expérimentations
Conclusion
Motivation
• Contribution
• Conclusion
Batch Booster accède à l’ensemble entier des exemples
d’entrainement
Traitement très cher pour les larges bases de données.
• Limite son application: Problème de classification des sites en
ligne par exemple
• Limite son efficacité: A chaque rond  Un traitement dans la
base de données entière.
Introduction
FilterBoost
• Analyse
Expérimentations
Conclusion
Introduction
Problématique
Motivation
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
• Conclusion
Motivation
Le but principal :
Rendre le boosting faisable dans de large base de données
Idée principle:
Utiliser un flux de données au lieu d’utiliser la base de données en
entier.
Entrainer un nouveau sous ensemble de données à chaque rond.
FilterBoost
Introduction
FilterBoost
Présentation
Batch Algorithme
• Introduction • Problématique & motivations
• Analyse
Expérimentations
FilterBoost Algorithme
• Travaux antérieurs
• Contribution
Présentation du FilterBoost
Conclusion
Filtre
• Conclusion
Oracle  Nouveaux exemples IID de D dans chaque rond.
Algorithme :
• Adaptif
• Basé sur une logique de régression logistique.
• Moins d’assomptions exigées que les travaux antérieurs.
Applicable:
• Estimation de la probabilité conditionnelle
 plus robuste au bruit et au sur apprentissage.
• Classification
 prouve compétitivité.
Introduction
FilterBoost
Présentation
Batch Algorithme
• Introduction • Problématique & motivations
• Analyse
Batch Algorithme
Expérimentations
FilterBoost Algorithme
• Travaux antérieurs
• Contribution
Conclusion
Filtre
• Conclusion
Etant donné: Un ensemble fixe d’entrainement S
Pour t = 1,…,T
• Construire la distribution Dt de S
• Faire fonctionner le Weak Learner
• Choix hypothèse ht
Dans le Filtrage :
• Estimer Erreur εt de ht
Il n’ya pas d’ensemble fixe d’entrainement.
• Donner un poids αt à ht
Mécanisme du Filtre:
Sortie : Hypothèse Finale Simuler Dt
rejeter les exemples selon une probabilité qt
H(x)Accepter
= Σt αt ou
ht(x)
Introduction
FilterBoost
• Analyse
Expérimentations
Présentation
Batch Algorithme
FilterBoost Algorithme
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
FilterBoost Algorithme
Conclusion
Filtre
• Conclusion
Etant donné: Oracle
Pour t = 1,…,T
Le nombre mt d’exemple doit être
• Filtre donne acces à Dt
suffisamment large pour assurer que
•• Tirer
Tirer mt
mt exemple
exemple du
du filtre
filtre
l’erreur εt < ½ avec une forte probabilité.
 Choisir l’hypothèse ht
• Tirer de nouveax exemples du filtre
• Estimer l’erreur εt de ht
L’erreur de l’hypothèse finale < ε
• Donner un poids αt à ht
Output: Hypothèse Finale
Introduction
FilterBoost
• Analyse
Expérimentations
Présentation
Batch Algorithme
FilterBoost Algorithme
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
Filtre
Conclusion
Filtre
• Conclusion
Accepter
Oracle
+-
Refuser
Label = +-11
Booster prédit -1
 Bien
Mal classé
classé
 Poids faible
élevé
 Probabilité faible
élevé d’être accepté
Le filtre accepte l’exemple (x,y) avec une
probabilité proportionnelle à l’erreur de la
prédiction du booster H(x)
Introduction
FilterBoost
• Introduction • Problématique & motivations
Analyse
• Analyse
• Travaux antérieurs
Expérimentations
• Contribution
Conclusion
• Conclusion
• Condition d’arrêt du boosting?
 Si le filtre rejète suffisament d’exemples dans un seul appel,
 pt est petite
 Ht est suffisamment correcte.
• Nombre de ronds que le boosting a besoin?
 Si l’erreur de ht : εt < ½  progrés significatif dans ce rond.
• Estimation des limites de l’Hypothèse faible?
 Utilisation du Nonmonotonic Adative Sampling
Introduction
FilterBoost
• Analyse
Expérimentations
Conclusion
Expérimentation
Expérimentation :CPE
Expérimentation: Classification
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
• Conclusion
Expérimentation (1/2)
• La pondération au lieu du filtrage des exemples.
 Augmente l’exactitude.
 Augmente la taille de l’ensemble d’entrainement.
Filtrer  lors de l’entrainement du Weak Learner.
Pondérer  lors de l’estimation des limites.
• Simulation Oracle
 Permutation par hasard des données et utilisation des
exemples dans le nouvel ordre.
Introduction
FilterBoost
• Analyse
Expérimentations
Conclusion
Expérimentation
Expérimentation :CPE
Expérimentation: Classification
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
• Conclusion
Expérimentation (2/2)
• Tester FilterBoost avec et sans Confidence-Rated predictions.
•Tester FilterBoost contre d’autres Batch et Filtering Boostings:
MadaBoost, AdaBoost, Logistic AdaBoost
• Tester: classification et conditional probability estimation
Filtering Boster est plus long que les batch dans de petite
base de données.
Mais plus rapide dans les larges base de données.
Introduction
FilterBoost
• Analyse
Expérimentations
Conclusion
Expérimentation
Expérimentation :CPE
Expérimentation: Classification
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
• Conclusion
Expérimentation: CPE
Décision Expert
Arbre de Décision
Introduction
FilterBoost
• Analyse
Expérimentations
Conclusion
Expérimentation
Expérimentation :CPE
Expérimentation: Classification
• Introduction • Problématique & motivations • Travaux antérieurs
• Contribution
• Conclusion
Expérimentation: Classification
Introduction
FilterBoost
• Introduction • Problématique & motivations
Conclusion
• Analyse
• Travaux antérieurs
Expérimentations
• Contribution
Conclusion
• Conclusion
• FilterBooster utilise des techniques de régression logistique, pour
l’Estimation des probabilités conditionnelles et la classification.
• Boosting-by-Filtering
 Utilisation d’un oracle et non pas d’un ensemble fixe
d’entraînement.
• Résultats:
 Plus efficace et plus robuste pour apprendre avec de large
bases de données.
 Plus rapide et plus robuste que le batch booster sans sacrifié
l’exactitude.
Téléchargement