Conclusions

Téléchargement

Problématique

État de l'art

Notre approche

Expérimentations

Conclusions

Marian-Andrei Rizoiu Regrouper et nommer les données textuelles en utilisant des classes recouvrantes

Regrouper et nommer les données textuelles en

utilisant des classes recouvrantes

Marian-Andrei Rizoiu

Supervision: J. Velcin, J.H. Chauchat

17 Juin 2009

Problématique

État de l'art

Notre approche

Expérimentations

Conclusions

Le problème

Une approche

Le problème

Un document,

plusieurs thématiques

- Abondance d'infor-

mation non-structurée

- Besoin de regrouper

les documents par sujet

- Textes en Langage

Naturel

- naturellement multi-

thématiques

Marian-Andrei Rizoiu Regrouper les textes dans les classes recouvrantes et nommer les clusters 1

Marian-Andrei Rizoiu Regrouper et nommer les données textuelles en utilisant des classes recouvrantes

Problématique

État de l'art

Notre approche

Expérimentations

Conclusions

Une approche

Apprentissage non-supervisé

Un algorithme automatique qui :

o regroupe avec recouvrement

→Overlapping Clustering

o associe un nom qui

synthétise bien le contenu de

chaque groupe

Le problème

Une approche

Histoire de

France Commémoration

Marian-Andrei Rizoiu Regrouper les textes dans les classes recouvrantes et nommer les clusters

« … C'est l'histoire de France et c'est

l'histoire des Français. Hier c'était la

commémoration de la sinistre nuit de

cristal.... «

Marian-Andrei Rizoiu Regrouper et nommer les données textuelles en utilisant des classes recouvrantes

Problématique

État de l'art

Notre approche

Expérimentations

Conclusions

Marian-Andrei Rizoiu Regrouper les textes dans les classes recouvrantes et nommer les clusters 3

● Cadre du travail – état de l'art

● Notre approche

● Nos contributions

● Expérimentations

● Conclusions et perspectives

Plan de la présentation

Marian-Andrei Rizoiu Regrouper et nommer les données textuelles en utilisant des classes recouvrantes

Problématique

État de l'art

Notre approche

Expérimentations

Conclusions

Regrouper les documents – Clustering

Nommer les groupes

- Décomposer la matrice terme / document en un produit de 3

matrices => type d'analyse factorielle qui réduit la dimension du

problème

- Exprimer chaque document comme un produit pondéré des

éléments de la base

Singular Value Decomposition [Osinski 03] Overlapping Clustering

- Modèle mathématique constructif - mots générés par

les « thématiques »

- Les documents - distributions probabilistes sur les « thématiques »

Latent Dirichlet Allocation [Blei 03]

- Une extension des KMeans qui permet le chevauchement

- Algorithme itératif qui minimise une fonction objectif

Overlapping KMeans ( OKM ) [Cleuziou 07, 08, 09]

Marian-Andrei Rizoiu Regrouper les textes dans les classes recouvrantes et nommer les clusters 4

Marian-Andrei Rizoiu Regrouper et nommer les données textuelles en utilisant des classes recouvrantes

1 / 26 100%

Documents connexes

BB1 Module de base Gestion de projets

Questions cours 07

34. TB-MR : une maladie complexe qui nécessite une réponse

cours 16 190117

DEMANDE DE SERVICES Date : ______/ /______ Heure : Jour

Télécharger le fichier

Des feuilles déterminées - Jardin botanique

Télécharger le fichier

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Conclusions

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Conclusions

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib