Table des matières
1 Introduction ........................................................................................................... 1
1.1 Importance du principe de l’exploration ........................................................ 5
1.2 Objectif de la recherche ................................................................................ 10
2 Cadre conceptuel ................................................................................................. 14
2.1 L’éthique de l’exploration de données ......................................................... 14
2.2 L’exploration de données ............................................................................. 16
2.2.1 La recherche fondamentale en exploration de données ........................ 19
2.2.2 La recherche appliquée en exploration de données............................... 20
2.3 L’exploration de textes ................................................................................. 28
2.3.1 La recherche fondamentale sur l’exploration de textes......................... 29
2.3.2 La recherche appliquée sur l’exploration de textes ............................... 30
2.3.3 Comment faire de l’exploration de textes ............................................. 33
2.3.3.1 Étape 1 : Définir l’étendue du projet ............................................. 35
2.3.3.2 Étape 2 : Sélectionner le corpus ..................................................... 35
2.3.3.3 Étape 3 : Prétraiter et acquérir les données .................................... 35
2.3.3.4 Étape 4 : Modéliser ........................................................................ 36
2.3.3.5 Étape 5 : Créer la connaissance ..................................................... 38
3 Méthodologie ...................................................................................................... 40
3.1 « Design science » ........................................................................................ 41
3.2 Les méthodologies d’analyse de données textuelles .................................... 43
3.2.1 Étape 1 : Présenter le cas ....................................................................... 43
3.2.2 Étape 2 : Obtenir des données ............................................................... 45
3.2.3 Étape 3 : Présenter le corpus ................................................................. 47
3.2.4 Étape 4 : Évaluer et choisir l’application .............................................. 49
3.2.5 Étape 5 : Effectuer l’exploration de textes ............................................ 51
3.3 Éthique de ce mémoire ................................................................................. 52
4 Analyses et résultats ............................................................................................ 53
4.1 Évaluer et choisir l’outil d’analyse de textes ................................................ 54
4.1.1 Étape 1 : Présélectionner les applications ............................................. 54
4.1.2 Étape 2 : Identifier les critères de sélection supplémentaires ............... 55
4.1.3 Étape 3 : Pondérer les critères de sélection ........................................... 56
4.1.4 Étape 4 : Corriger les critères ................................................................ 56
4.1.5 Étape 5 : Évaluer de notation ................................................................ 56
4.1.6 Étape 6 : Évaluer et sélectionner l’application ...................................... 57
4.2 Effectuer l’exploration de textes .................................................................. 59
4.2.1 Comprendre les données et le problème d’affaires ............................... 60
4.2.2 Préparer le corpus (Préparer les données) ............................................. 60
4.2.3 Effectuer l’exploration de textes (Modéliser) ....................................... 61
4.2.3.1 Échantillonnage ............................................................................. 62
4.2.3.2 Analyse des liens du texte .............................................................. 63
4.2.3.3 Analyse par segmentation .............................................................. 67
4.2.3.4 Classification supervisée................................................................ 75
4.2.3.5 Analyse de l’arbre C&R ................................................................ 82