Preprocessing de textes Données Evaluation
Fouille de Données et Média Sociaux
Vincent Guigue
UPMC - LIP6
Vincent Guigue Textes & Python 1/17
Preprocessing de textes Données Evaluation
Organisation de l’UE
Outils pour la fouille de données, application sur des média sociaux
Partie 1 (Vincent Guigue)
Sem. 1 2 3 4
Cours Intro Dataiku Texte avancé reco
TME BOW + classif Dataiku word2vec, lda facto. mat.
Sem. 5 6 7
Cours J. Loncelle (Klesia)
TME à définir
Partie 2 (Sylvain Lamprier)
-Classification dans les graphes
-Diffusion dans les réseaux
-Architectures Big Data (Talend)
Vincent Guigue Textes & Python 2/17
Preprocessing de textes Données Evaluation
Evaluation de l’UE
25% Rapport 1 (50/50 : travail en TP/rapport)
25% Rapport 2
50% Examen
Vincent Guigue Textes & Python 3/17
Preprocessing de textes Données Evaluation
Manipulation des données textuelles
utilisation de Python
Vincent Guigue
UPMC - LIP6
Vincent Guigue Textes & Python 4/17
Preprocessing de textes Données Evaluation
Traitements pour la classification de textes
Les données textuelles sont difficiles à gérer :
1Les corpus sont volumineux, le vocabulaire est grand :
-il faut des algorithmes rapides,
-les données ne sont pas toujours stockables en mémoire.
2La structure des phrases est difficile à gérer.
3Les mots peuvent prendre plusieurs formes (pluriels...)
4Les algorithmes de machine learning ont du mal sur des
données de grande dimension
Vincent Guigue Textes & Python 5/17
1 / 18 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !