Travaux Pratiques Text Mining 2h Cet exercice vous permet d

Travaux Pratiques
Text Mining
2h
Cet exercice vous permet d’analyser, classifier et de visualiser des données textuelles avec python orange.
1. Télécharger les entêtes de dépêches d’agence à partir de https://fr.news.yahoo.com/ pour trois catégories,
sport, finance, actualités
donne les textes suivants :
T1 : La presse quotidienne régionale en crise
La crise de la presse écrite n’épargne pas les titres de la presse quotidienne régionale. À la voix du Nord, un
plan social va concerner près de 180 postes.
T2 : Budapest : les Hongrois solidaires face au froid extrême
Face à un froid très virulent, les habitants de Budapest offrent leurs manteaux inutilisés aux plus démunis.
T3 :
L'artiste qui a transformé "Hollywood" en "Hollyweed" s'est rendu à la police
L'artiste qui avait transformé les lettres "Hollywood" en "Hollyweed" s'est rendu à la police lundi. Il a
expliqué vouloir faire un acte "militant".
2. Formater ces données dans un fichier TAB lisible par orange python :
Texte Catégorie
string discrete
class
La presse quotidienne régionale en crise
La crise de la presse écrite n’épargne pas les titres de la presse quotidienne régionale. À la voix du Nord, un
plan social va concerner près de 180 postes. actualités
Budapest : les Hongrois solidaires face au froid extrême
Face à un froid très virulent, les habitants de Budapest offrent leurs manteaux inutilisés aux plus démunis.
actualités
L'artiste qui a transformé "Hollywood" en "Hollyweed" s'est rendu à la police
L'artiste qui avait transformé les lettres "Hollywood" en "Hollyweed" s'est rendu à la police lundi. Il a
expliqué vouloir faire un acte "militant". actualités
Remarque1 : sauvegarder en texte, codage windows latin occidental, puis mettre l’extension .tab.
Remarque 2 : éliminer les retours chariot des textes à analyser.
Remarque 3 : séparer les champs par des tabulations.
3. Vous devez pouvoir lire le fichier en Orange et visualiser les données en Bag of Words par fréquence.
4. Utiliser le tableau de fréquence comme entrée pour un logiciel de classification comme ID3.
5. Recommencer avec un fichier .xls et avec les primitives text mining
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !