Apprentissage et Fouilles de données FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire Salma Najar 20 Mars 2008 • Plan • Introduction • Filterboost • Analyse • Expérimentations • Conclusion Introduction • Analyse FilterBoost Expérimentations Introduction Problématique • Introduction • Problématique & motivations • Travaux antérieurs Introduction Conclusion Motivation • Contribution • Conclusion Batch Boosting • Weak Learner • S: Ensemble fixe d’exemple d’entrainement • Après T ronds + - - - Hypothèse ht Finale Booster H + Dt εt αt Introduction FilterBoost • Analyse Introduction Problématique • Introduction • Problématique & motivations • Travaux antérieurs Problématique Expérimentations Conclusion Motivation • Contribution • Conclusion Batch Booster accède à l’ensemble entier des exemples d’entrainement Traitement très cher pour les larges bases de données. • Limite son application: Problème de classification des sites en ligne par exemple • Limite son efficacité: A chaque rond Un traitement dans la base de données entière. Introduction FilterBoost • Analyse Expérimentations Conclusion Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Motivation Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu d’utiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. FilterBoost Introduction FilterBoost Présentation Batch Algorithme • Introduction • Problématique & motivations • Analyse Expérimentations FilterBoost Algorithme • Travaux antérieurs • Contribution Présentation du FilterBoost Conclusion Filtre • Conclusion Oracle Nouveaux exemples IID de D dans chaque rond. Algorithme : • Adaptif • Basé sur une logique de régression logistique. • Moins d’assomptions exigées que les travaux antérieurs. Applicable: • Estimation de la probabilité conditionnelle plus robuste au bruit et au sur apprentissage. • Classification prouve compétitivité. Introduction FilterBoost Présentation Batch Algorithme • Introduction • Problématique & motivations • Analyse Batch Algorithme Expérimentations FilterBoost Algorithme • Travaux antérieurs • Contribution Conclusion Filtre • Conclusion Etant donné: Un ensemble fixe d’entrainement S Pour t = 1,…,T • Construire la distribution Dt de S • Faire fonctionner le Weak Learner • Choix hypothèse ht Dans le Filtrage : • Estimer Erreur εt de ht Il n’ya pas d’ensemble fixe d’entrainement. • Donner un poids αt à ht Mécanisme du Filtre: Sortie : Hypothèse Finale Simuler Dt rejeter les exemples selon une probabilité qt H(x)Accepter = Σt αt ou ht(x) Introduction FilterBoost • Analyse Expérimentations Présentation Batch Algorithme FilterBoost Algorithme • Introduction • Problématique & motivations • Travaux antérieurs • Contribution FilterBoost Algorithme Conclusion Filtre • Conclusion Etant donné: Oracle Pour t = 1,…,T Le nombre mt d’exemple doit être • Filtre donne acces à Dt suffisamment large pour assurer que •• Tirer Tirer mt mt exemple exemple du du filtre filtre l’erreur εt < ½ avec une forte probabilité. Choisir l’hypothèse ht • Tirer de nouveax exemples du filtre • Estimer l’erreur εt de ht L’erreur de l’hypothèse finale < ε • Donner un poids αt à ht Output: Hypothèse Finale Introduction FilterBoost • Analyse Expérimentations Présentation Batch Algorithme FilterBoost Algorithme • Introduction • Problématique & motivations • Travaux antérieurs • Contribution Filtre Conclusion Filtre • Conclusion Accepter Oracle +- Refuser Label = +-11 Booster prédit -1 Bien Mal classé classé Poids faible élevé Probabilité faible élevé d’être accepté Le filtre accepte l’exemple (x,y) avec une probabilité proportionnelle à l’erreur de la prédiction du booster H(x) Introduction FilterBoost • Introduction • Problématique & motivations Analyse • Analyse • Travaux antérieurs Expérimentations • Contribution Conclusion • Conclusion • Condition d’arrêt du boosting? Si le filtre rejète suffisament d’exemples dans un seul appel, pt est petite Ht est suffisamment correcte. • Nombre de ronds que le boosting a besoin? Si l’erreur de ht : εt < ½ progrés significatif dans ce rond. • Estimation des limites de l’Hypothèse faible? Utilisation du Nonmonotonic Adative Sampling Introduction FilterBoost • Analyse Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Expérimentation (1/2) • La pondération au lieu du filtrage des exemples. Augmente l’exactitude. Augmente la taille de l’ensemble d’entrainement. Filtrer lors de l’entrainement du Weak Learner. Pondérer lors de l’estimation des limites. • Simulation Oracle Permutation par hasard des données et utilisation des exemples dans le nouvel ordre. Introduction FilterBoost • Analyse Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Expérimentation (2/2) • Tester FilterBoost avec et sans Confidence-Rated predictions. •Tester FilterBoost contre d’autres Batch et Filtering Boostings: MadaBoost, AdaBoost, Logistic AdaBoost • Tester: classification et conditional probability estimation Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Introduction FilterBoost • Analyse Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Expérimentation: CPE Décision Expert Arbre de Décision Introduction FilterBoost • Analyse Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Expérimentation: Classification Introduction FilterBoost • Introduction • Problématique & motivations Conclusion • Analyse • Travaux antérieurs Expérimentations • Contribution Conclusion • Conclusion • FilterBooster utilise des techniques de régression logistique, pour l’Estimation des probabilités conditionnelles et la classification. • Boosting-by-Filtering Utilisation d’un oracle et non pas d’un ensemble fixe d’entraînement. • Résultats: Plus efficace et plus robuste pour apprendre avec de large bases de données. Plus rapide et plus robuste que le batch booster sans sacrifié l’exactitude.