Recherche de nouvelles tendances sur Twitter avec le « data clustering »
BECK Alexis iv
Table des matières
1. Introduction ................................................................................................. 1
2. L’exploration de données .......................................................................... 2
2.1 Le processus KDD .......................................................................................... 2
2.2 Les algorithmes de classification .................................................................. 4
3. Le projet ....................................................................................................... 6
3.1 Quelques analyses possibles ........................................................................ 7
3.2 Regroupement par sujets ............................................................................... 8
3.3 Les objectifs .................................................................................................... 9
3.4 Déroulement du projet .................................................................................... 9
4. Twitter ........................................................................................................ 11
4.1 Structure d’un tweet ...................................................................................... 11
4.2 Les utilisateurs .............................................................................................. 12
5. Phase de « pipeline » ............................................................................... 14
5.1 Récupération des données .......................................................................... 14
5.2 Préparation des données ............................................................................. 15
5.3 Statistiques sur les documents ................................................................... 17
5.4 Matrice d’occurrence .................................................................................... 19
5.5 Matrice « TF-IDF » ......................................................................................... 21
5.6 Matrice de similarité cosinus ....................................................................... 22
6. Phase de « clustering » ............................................................................ 24
6.1 Les différentes méthodes ............................................................................. 24
6.2 La méthode k-means ..................................................................................... 25
6.3 La fonction PAM ............................................................................................ 25
6.4 Sélection du paramètre k .............................................................................. 28
7. Détection de nouveauté ........................................................................... 30
7.1 Comparaison entre les medoids et les nouveaux tweets .......................... 30
7.2 Sélection des « outilers » ............................................................................. 31
8. Résultats préliminaires ............................................................................ 33
9. Conclusion ................................................................................................ 35