Fouille de données textuelle dans un contexte de prise de décision

UNIVERSITÉ DE SHERBROOKE
MÉMOIRE PRÉSENTÉ AU
PROGRAMME DE MAITRISE EN ADMINISTRATION
Par
Alexandre Tardif, Candidat à la M. Sc. en Stratégie de l’intelligence d’affaires
Olivier Caya, Directeur de recherche
Jessica Lévesque, Codirectrice de recherche
Lecteur
Jean Cadieux
Exploration de textes dans un corpus francophone de droit
Le cas SOQUIJ
Le 15 mai 2014
II
SOMMAIRE
L’intelligence d’affaires a mis en place des processus et des procédures permettant
l’accès à une donnée unique. Des rapports, des requêtes et des analyses sont possibles
sur cette structure. L’exploration de données a bénéficié de ces démarches et a fait
naitre l’exploration de textes.
L’exploration de textes est peu employée par rapport à l’exploration de données et ce
autant par la communauté scientifique que par le domaine privé. La syntaxe et la
grammaire mathématique sont universelles tandis que la syntaxe et la grammaire
linguistique sont régionales et plus complexes. Ces limitations ont restreints les
recherches sur l’exploration des textes..
Ce mémoire s’intéresse à l’utilisation d’un outil d’exploration de textes dans le
contexte juridique. Plus précisément, l’objectif de la présente recherche est d’utiliser
l’outil pour en découvrir les défis et opportunités découlant de l’exploration des liens
des textes et de la classification supervisée et non supervisée. Afin d’atteindre cet
objectif, la présente recherche s’appuie sur le « design science » et la méthodologie
« CRISP-DM », le tout dans le but de sélectionner un outil logiciel approprié à la
recherche, d’effectuer l’exploration de textes et d’analyser les résultats.
Les principaux résultats qui émanent des analyses effectuées avec l’outil IBM PASW
SPSS sont les suivants. Premièrement, une analyse des liens entre les textes permet
de faire ressortir les concepts des différents domaines de droit. Deuxièmement,
l’analyse « Two-Steps » fait ressortir 3 classes dans le corpus complet qui comprend
4 domaines. Enfin, les analyses de classifications supervisées ont eu un taux de
succès entre 46 et 60 % sur les échantillons de validation.
Les modèles développés sont peu performants et selon moi ils ne peuvent pas être
déployés à la SOQUIJ. La connaissance du domaine juridique est importante afin
d’analyser et interpréter les textes propres à la SOQUIJ. Il en va de me afin de
III
créer un dictionnaire pour l’exploration de textes. Ce dictionnaire spécifique au droit
manque pour l’obtention de résultats plus probants.
Plusieurs avenues sont intéressantes pour les recherches futures. Des plus
intéressantes, notons la validation de l’impact de la création d’un dictionnaire pour
réviser les différentes analyses et aussi d’étudier le résultat des 3 classes créées par le
« Two-Steps ».
IV
REMERCIEMENTS
J’ai passé plus de temps que j’aurais dû sur ce mémoire et pour moi il est important
de remercier ceux qui me sont chers.
Julie, je sais que ça a été long et cela t’a stressé au plus haut point, merci et je t’aime.
Mes enfants pour leurs sourires, rires et pour l’avenir, merci et je vous aime.
Mes collègues de classe Phil, Geoff, Meh, Sylvie, Francis et Simon qui tous à un
moment donné mont aidé sans s’en rendre compte, merci.
À mon beau-frère Stéphane, qui à lui seul m’a posé les meilleures questions, merci.
Aux autres membres de ma famille, auxquels quand je parle de ce que j’effectue ne
comprennent rien du tout, mais qui quand même m’ont écouté, merci.
À l’amie de ma conjointe, Geneviève, pour m’avoir ouvert le chemin à la SOQUIJ,
merci.
À M. Champagne et à la SOQUIJ pour l’intérêt envers l’avancée de la science, merci.
À mon collègue François qui m’a poussé à terminer, merci.
À mes professeurs Manon et Daniel, mon directeur Olivier et ma codirectrice Jessica
pour votre dévouement, vos conseils et votre patience, merci.
À la vie et ses embuches et bien j’ai passé les plus belles années auprès de mes
enfants, merci!
V
Table des matières
1 Introduction ........................................................................................................... 1
1.1 Importance du principe de l’exploration ........................................................ 5
1.2 Objectif de la recherche ................................................................................ 10
2 Cadre conceptuel ................................................................................................. 14
2.1 L’éthique de l’exploration de données ......................................................... 14
2.2 L’exploration de données ............................................................................. 16
2.2.1 La recherche fondamentale en exploration de données ........................ 19
2.2.2 La recherche appliquée en exploration de données............................... 20
2.3 L’exploration de textes ................................................................................. 28
2.3.1 La recherche fondamentale sur l’exploration de textes......................... 29
2.3.2 La recherche appliquée sur l’exploration de textes ............................... 30
2.3.3 Comment faire de l’exploration de textes ............................................. 33
2.3.3.1 Étape 1 : Définir l’étendue du projet ............................................. 35
2.3.3.2 Étape 2 : Sélectionner le corpus ..................................................... 35
2.3.3.3 Étape 3 : Prétraiter et acquérir les données .................................... 35
2.3.3.4 Étape 4 : Modéliser ........................................................................ 36
2.3.3.5 Étape 5 : Créer la connaissance ..................................................... 38
3 Méthodologie ...................................................................................................... 40
3.1 « Design science » ........................................................................................ 41
3.2 Les méthodologies d’analyse de données textuelles .................................... 43
3.2.1 Étape 1 : Présenter le cas ....................................................................... 43
3.2.2 Étape 2 : Obtenir des données ............................................................... 45
3.2.3 Étape 3 : Présenter le corpus ................................................................. 47
3.2.4 Étape 4 : Évaluer et choisir l’application .............................................. 49
3.2.5 Étape 5 : Effectuer l’exploration de textes ............................................ 51
3.3 Éthique de ce mémoire ................................................................................. 52
4 Analyses et résultats ............................................................................................ 53
4.1 Évaluer et choisir l’outil d’analyse de textes ................................................ 54
4.1.1 Étape 1 : Présélectionner les applications ............................................. 54
4.1.2 Étape 2 : Identifier les critères de sélection supplémentaires ............... 55
4.1.3 Étape 3 : Pondérer les critères de sélection ........................................... 56
4.1.4 Étape 4 : Corriger les critères ................................................................ 56
4.1.5 Étape 5 : Évaluer de notation ................................................................ 56
4.1.6 Étape 6 : Évaluer et sélectionner l’application ...................................... 57
4.2 Effectuer l’exploration de textes .................................................................. 59
4.2.1 Comprendre les données et le problème d’affaires ............................... 60
4.2.2 Préparer le corpus (Préparer les données) ............................................. 60
4.2.3 Effectuer l’exploration de textes (Modéliser) ....................................... 61
4.2.3.1 Échantillonnage ............................................................................. 62
4.2.3.2 Analyse des liens du texte .............................................................. 63
4.2.3.3 Analyse par segmentation .............................................................. 67
4.2.3.4 Classification supervisée................................................................ 75
4.2.3.5 Analyse de l’arbre C&R ................................................................ 82
1 / 158 100%

Fouille de données textuelle dans un contexte de prise de décision

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !