Manipulation des données textuelles utilisation des outils

Preprocessing de textes Données Outils Limites...
Manipulation des données textuelles
utilisation des outils WEKA/JAVA pour le projet
AFD
Vincent Guigue
UPMC - LIP6
Vincent Guigue Preprocessing & JAVA 1/24
Preprocessing de textes Données Outils Limites...
Traitements pour la classification de textes
Les données textuelles sont difficiles à gérer :
1Les corpus sont volumineux, le vocabulaire est grand :
-il faut des algorithmes rapides,
-les données ne sont pas toujours stockables en mémoire.
2La structure des phrases est difficile à gérer.
3Les mots peuvent prendre plusieurs formes (pluriels...)
4Les algorithmes de machine learning ont du mal sur des
données de grande dimension
Vincent Guigue Preprocessing & JAVA 2/24
Preprocessing de textes Données Outils Limites...
Traitements pour la classification de textes
Les données textuelles sont difficiles à gérer :
1Les corpus sont volumineux, le vocabulaire est grand :
-il faut des algorithmes rapides,
-les données ne sont pas toujours stockables en mémoire.
Perceptron, SVM (en version rapide), Naive Bayes...
Boosting, Bagging
2La structure des phrases est difficile à gérer.
On supprime la structure...
3Les mots peuvent prendre plusieurs formes (pluriels...)
Plusieurs approches possibles... (cf plus loin)
4Les algorithmes de machine learning ont du mal sur des
données de grande dimension
On cherche des heuristiques pour supprimer les mots
inutiles.
Vincent Guigue Preprocessing & JAVA 2/24
Preprocessing de textes Données Outils Limites...
Sacs de mots
Ne sachant pas prendre efficacement en compte la structure des
phrases... On l’élimine totalement !
Un document devient alors un comptage des différents mots qui le
composent :
Représentation bag of words
Soit Vle vocabulaire et dun document : dN|V|
NB : dest (presque toujours) un vecteur sparse, c’est à dire
composé essentiellement de 0.
Vincent Guigue Preprocessing & JAVA 3/24
Preprocessing de textes Données Outils Limites...
Sur un exemple (crédit Sergio Jimenez)
Vincent Guigue Preprocessing & JAVA 4/24
1 / 25 100%

Manipulation des données textuelles utilisation des outils

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !