Manipulation des données textuelles utilisation des outils

Téléchargement

Preprocessing de textes Données Outils Limites...

Manipulation des données textuelles

utilisation des outils WEKA/JAVA pour le projet

AFD

Vincent Guigue

UPMC - LIP6

Vincent Guigue Preprocessing & JAVA 1/24

Preprocessing de textes Données Outils Limites...

Traitements pour la classification de textes

Les données textuelles sont diﬃciles à gérer :

1Les corpus sont volumineux, le vocabulaire est grand :

-il faut des algorithmes rapides,

-les données ne sont pas toujours stockables en mémoire.

2La structure des phrases est diﬃcile à gérer.

3Les mots peuvent prendre plusieurs formes (pluriels...)

4Les algorithmes de machine learning ont du mal sur des

données de grande dimension

Vincent Guigue Preprocessing & JAVA 2/24

Preprocessing de textes Données Outils Limites...

Traitements pour la classification de textes

Les données textuelles sont diﬃciles à gérer :

1Les corpus sont volumineux, le vocabulaire est grand :

-il faut des algorithmes rapides,

-les données ne sont pas toujours stockables en mémoire.

Perceptron, SVM (en version rapide), Naive Bayes...

Boosting, Bagging

2La structure des phrases est diﬃcile à gérer.

On supprime la structure...

3Les mots peuvent prendre plusieurs formes (pluriels...)

Plusieurs approches possibles... (cf plus loin)

4Les algorithmes de machine learning ont du mal sur des

données de grande dimension

On cherche des heuristiques pour supprimer les mots

inutiles.

Vincent Guigue Preprocessing & JAVA 2/24

Preprocessing de textes Données Outils Limites...

Sacs de mots

Ne sachant pas prendre eﬃcacement en compte la structure des

phrases... On l’élimine totalement !

Un document devient alors un comptage des diﬀérents mots qui le

composent :

Représentation bag of words

Soit Vle vocabulaire et dun document : d∈N|V|

NB : dest (presque toujours) un vecteur sparse, c’est à dire

composé essentiellement de 0.

Vincent Guigue Preprocessing & JAVA 3/24

Preprocessing de textes Données Outils Limites...
Sur un exemple (crédit Sergio Jimenez)
Vincent Guigue Preprocessing & JAVA 4/24

1 / 25 100%

Documents connexes

titre sur 1 ou 2 lignes maximum

Fouille de Données et Média Sociaux

Exas Programmation Systèmes février 06

HTML 5 /Framework La conception orientée Langage SQL pour les Développement Java 8

JAVA - FCPR Formation

Stagiaire Développeur Java

Offres Développeur/Développeuse d`application depuis 1 semaine

developpeur java – h/f

Forum: Mises à jour de logiciels

Chapitre 1: Introduction Agenda Programmation Java 2 • Plan du cours

Télécharger

ingenieur developpement java securite h/f

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Manipulation des données textuelles utilisation des outils

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Manipulation des données textuelles utilisation des outils

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib