L’ALGORITHME SUFFIXE TREE CLUSTERING M2 – MASS M1 – DECIM Sommaire 1. Introduction 2. Les étapes de l’algorithme 3. Confrontation aux autres méthodes 4. Conclusion INTRODUCTION Introduction Les moteurs de recherche aujourd’hui Précision Les 1. 2. 3. 4. 5. 6. vs Facilité d’utilisation 6 besoins d’une classification Pertinence Résumés navigables Chevauchement Extrait de tolérance Vitesse Différentiel Introduction Les fondamentaux du STC Classification sur les … phrases ! Séquence ordonnée de mots Phrase partagée dans un cluster = Résumé de la classe Algorithme en 3 étapes LES ÉTAPES DE L’ALGORITHME Les étapes 1ère étape : Le nettoyage Lemmatisation légère Marquer la séparation des phrases Suppression des non-mots Conservation du texte original Les étapes 2ème étape : Identification des classes de base 𝑆 𝐵 = 𝐵 .𝑓 𝑃 Les étapes 3ème étape : Combinaison de classe Définition de la similarité entre 2 groupes 𝑆𝑖 ∶ 𝐵𝑚 𝐵𝑛 𝐵𝑚 𝐵𝑛 > 0.5 𝑒𝑡 > 0.5 𝑎𝑙𝑜𝑟𝑠 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡é = 1 𝐵𝑚 𝐵𝑛 On relie les nœuds lorsqu’ils ont une similarité de 1 Un groupe de nœuds = un cluster Affichage des 10 classes avec les meilleurs scores CONFRONTATION AUX AUTRES MÉTHODES Confrontation Les + Les - CAH . Couramment utilisé . Lent . Nombre de classe . Pas de chevauchement K-means . Assez rapide . Chevauchement possible . Hypothèse de classes sphériques Single Pass . Incrémentale . Populaire . Hypothèse de classes sphériques . Grands groupes Fractionnement . Rapide . Les « - » de la CAH . N’aime pas les valeurs aberrantes Buckshot . Rapide (k-means + CAH) . Grands groupe Non incrémentale et traitent un document comme un ensemble de mots. Confrontation Précision du STC Confrontation Rapidité du STC CONCLUSION Conclusion Clustering à partir des extraits et non des documents Raisonnable D’autres STC Prise expériences pour asseoir l’intérêt du en compte de l’historique des requêtes formulées par l’utilisateur MERCI DE VOTRE ATTENTION ! AVEZ-VOUS DES QUESTIONS ?