Analyse des données textuelles - Ceremade

publicité
Université Paris – Dauphine
Ecole Doctorale de Gestion
M. Gettler – Summa, C. Pardoux
ANALYSE DES
DONNÉES TEXTUELLES
Traitement automatique
des questions ouvertes
Question ouverte
¾ Souhaitez-vous ajouter des informations que ce
questionnaire n’a pas permis de recueillir ?
¾ Contexte : question finale
¾ Intention des concepteurs : redonner la main aux
enquêtés
¾ Conséquence : espace de liberté important du fait d’une
question très ouverte (avantage et inconvénient)
19/04/2005
EDOGEST
2
Exploration des données textuelles
1.
2.
3.
Disposer d’une base contenant au moins une variable
textuelle et au moins une variable nominale.
Créer le « Vocabulaire des mots et segments répétés ».
Explorer les données textuelles :
¾ Recherche des « Contextes de mots »,
¾ Recherche du « Vocabulaire spécifique » de groupes d’individus,
¾ Construction de « Tableaux lexicaux » de contingence pour
comprendre les liaisons entre le vocabulaire et les groupes
d’individus.
19/04/2005
EDOGEST
3
Les unités statistiques de base
¾ Les formes graphiques
Suite de caractères non-délimiteurs entourée par des
caractères délimiteurs : un même mot peut donner lieu à
plusieurs formes graphiques selon son genre ou sa
conjugaison, une même forme graphique peut renvoyer à
plusieurs mots.
¾ Les segments répétés
Unités plus larges composées de plusieurs formes
graphiques : sécurité d’emploi, études supérieures…
Les segments sont le plus souvent formés de deux mots et
rarement de plus de quatre mots (mots composés…)
19/04/2005
EDOGEST
4
Formes lexicales
Mots et segments
⇒
Formes lexicales
Les comparaisons n’ont de sens que si les formes lexicales
apparaissent avec une certaine fréquence.
Il convient d’écarter les hapax (formes n’apparaissant qu’une
fois) et les formes rares. On peut ne garder que les formes
apparaissant au moins k fois (k = 5, par exemple).
La présence de mots-outils (dans, par, que, qui, des…) n’est
justifiée que si ces mots caractérisent certaines catégories.
19/04/2005
EDOGEST
5
Problèmes
¾ Mots homographes et homophones
être : nom masculin, mais aussi verbe à l’infinitif
lit : nom masculin, mais renvoie aussi au verbe lire
son : nom masculin, mais aussi pronom personnel
¾ Mots homographes et non homophones
couvent : nom masculin, mais renvoie aussi au verbe couver
⇒ Ne pas travailler à l’aveugle
19/04/2005
EDOGEST
6
La numérisation du texte
¾ « Lemmatisation » du vocabulaire
Regrouper les formes graphiques correspondant à un même mot, épurer
le vocabulaire des mots-outils non informatifs (articles…), mais ne pas
éliminer trop rapidement : certains mots-outils peuvent être
caractéristiques d’attitudes ou d’opinions, des formes graphiques
différentes d’un même mot peuvent ne pas être équivalentes.
¾ Création de mots thématiques
Rechercher les contextes d’emploi des mots à l’aide de la procédure
CORDA de SPAD, ce qui permet de repérer les segments.
19/04/2005
EDOGEST
7
La numérisation du texte avec SPAD
(Texte de l’aide en ligne de SPAD)
Principes généraux d’exploration des données textuelles
¾ A partir du vocabulaire initial des mots, procédez avec l’outil
CORTEX à la mise en équivalence des mots et à des
corrections d’orthographe (ne supprimez pas de mots).
¾ Après ce travail, créez le vocabulaire des segments répétés.
Sur ce nouveau vocabulaire contenant les mots et les
segments, vous pourrez supprimer les formes (mots ou
segments) de fréquences faibles ou les mots-outils pour obtenir
un vocabulaire plus robuste pour les analyses.
19/04/2005
EDOGEST
8
Les filières SPAD
Module « Analyses Textuelles »
¾ Construction du vocabulaire
¾ Contexte des mots et vocabulaire spécifique de groupes
d’individus
¾ Analyse d’un tableau lexical
¾ Analyse d’un tableau lexical et classification
¾ Création d’une base mots/segments/variables
19/04/2005
EDOGEST
9
Vocabulaire spécifique 1
La procédure VOSPEC recherche et édite les mots et
segments répétés caractéristiques de groupes
d’individus en fonction de la fréquence.
Les mots et segments répétés sont édités par ordre de
« valeurs-tests » décroissantes :
¾ une valeur-test élevée (> 2) indique un mot ou segment
plus fréquemment rencontrés dans le groupe qu’en
moyenne,
¾ une valeur-test faible (< - 2) indique un mot ou segment
moins souvent rencontrés dans le groupe qu’en moyenne.
19/04/2005
EDOGEST
10
Vocabulaire spécifique 2
La procédure VOSPEC édite également les phrases
caractéristiques des groupes d’individus selon deux
critères :
¾ le 1er critère « moyenne des valeurs-tests » des mots de
la phrase a tendance à favoriser les réponses courtes,
¾ le 2nd critère classant les phrases par ordre de distance
croissante à la réponse moyenne du groupe d’individus (au
sens de la distance du Khi-deux) a tendance à favoriser les
réponses longues.
19/04/2005
EDOGEST
11
Tableau lexical de contingence
La procédure TALEX construit un tableau de contingence
C avec :
En ligne, les mots et segments répétés du vocabulaire en cours,
En colonne, les modalités des variables nominales choisies.
cij = nombre de fois où la forme lexicale « i » a été
utilisée par les individus possédant la modalité « j »
de la variable nominale.
19/04/2005
EDOGEST
12
Traitement d’un tableau lexical
¾ L’Analyse des Correspondances du tableau C
permet de visualiser les associations entre les
formes lexicales et les modalités.
¾ Cette analyse peut être suivie d’une classification.
19/04/2005
EDOGEST
13
Enquête réalisée en 1984 par le CREDOC
« Conditions de Vie et Aspirations des Français »
¾ Enquête : Famille, Travail, Énergie…
¾ Base SPAD :
300 individus extraits au hasard parmi 2000
Deux questions ouvertes :
Pourquoi ce nombre idéal d’enfants ?
Pourquoi avez-vous cette opinion sur le mariage ?
19/04/2005
EDOGEST
14
Problématiques
¾ Existe-t-il des mots qui se regroupent ?
¾ Vocabulaire des mots :
Qui les emploie ?
Comment ?
Différence entre les hommes et les femmes ?
…
¾ Visualisation des proximités textuelles
19/04/2005
EDOGEST
15
Procédure CORDA
Contextes du mot: FAMILIAL
BON POUR L EQUILIBRE FAMILIAL
BIEN EQUILIBRE FAMILIAL
BON POUR EQUILIBRE FAMILIAL
POUR L EQUILIBRE FAMILIAL ET POUR LES ENFANTS CA FAIT PLUS D OUVERTURE
QUATRE IDEAL POUR L EQUILIBRE FAMILIAL PAS MOINS
QUATRE BON POUR L EQUILIBRE FAMILIAL
31
56
71
107
237
238
Contextes du mot: FAMILLES
ADORE LES GRANDES FAMILLES
LES FAMILLES NOMBREUSES SONT TRES PENALISEES DANS NOTRE SOCIETE
HELAS LES LOGEMENTS NE SONT PAS PREVUS POUR LES GRANDES FAMILLES
UN JE NE SUIS PAS POUR LES FAMILLES NOMBREUSES
TROIS LES FAMILLES UN PEU NOMBREUSES C EST BIEN POUR LES ENFANTS CA LES
DES FAMILLES MOYENNES
6 J AIME LES GRANDES FAMILLES
3 POUR LA FRANCE IL FAUDRAIT DE TELLES FAMILLES MAIS LES GENS ONT ILS LES MOYENS NON N EST CE PAS
7 J AIME LES FAMILLES NOMBREUSES
J AIME LES GRANDES FAMILLES
19/04/2005
EDOGEST
16
30
41
138
176
196
212
248
262
268
271
Traitement du tableau lexical
Procédure CORBIT
¾ Analyse des correspondances du tableau :
58 formes lexicales × 4 variables nominales
avec 8 variables nominales illustratives
¾ Cette analyse est suivie d’une classification.
19/04/2005
EDOGEST
17
Partition en 5 classes des formes lexicales
Composition des classes
COMPOSITION DE : Coupure l'arbre en
CLASSE
1 /
5
ACTUEL
DIFFICILE
GARCON
TEMPS
CLASSE
AVENIR
DUR
MOYENNE
TROUVER
2 /
CONDITION
FEMME
SITUATION
C EST SUFFISANT
DEUX
FILLE
SUFFISANT
CHER
EPANOUIE
MERE
PROBLEME
UNIQUE
COUT
FINANCIER
MOYENS
RAISONNABLE
VOULU
EDUCATION
IDEAL
PARENTS
SEUL
C EST IDEAL
ENFANT
LOURD
PERE
SOCIETE
ENFANT UNIQUE
ASSURE
NOMBRE
EGOISME
NOMBREUSE
SURCHARGE
3 /
5
CHARGE
ENNUIS
MATERIEL
POSSIBILITE
TRAVAIL
LOURDE CHARGE
CLASSE
CHOMAGE
ELEVER
POUVOIR
VIE
5
SOUCIS
CLASSE
5 classes
4 /
5
5 /
5
QUATRE
CLASSE
AIME
MAISON
19/04/2005
EDOGEST
EQUILIBRE
TROIS
FAMILLE
EQUILIBRE DE LA FAMILLE
18
Partition des formes lexicales
Description de la classe 5
CLASSE 5 / 5
% de la
% de la
fréquence classe dans la Valeur-Test Probabilité
dans la classe fréquence
Fréquences caractéristiques
% de la fréquence dans
l'échantillon
Nombre idéal "trois enfants"
Nombre idéal "quatre ou plus"
Ouest
Dip.sup
7,85
1,76
4,61
2,95
14,39
3,46
6,49
4,44
43,89
47,06
33,71
35,96
7,92
4,08
2,94
2,83
0,000
0,000
0,002
0,002
303
68
178
114
Est
employé
Nombre idéal "0 ou 1 enfant"
Nombre idéal "deux enfants"
3,26
4,27
1,99
13,37
1,73
2,38
0,54
6,49
12,70
13,33
6,49
11,63
-3,07
-3,34
-3,90
-7,46
0,001
0,000
0,000
0,000
126
165
77
516
19/04/2005
EDOGEST
Poids
19
Traitement du tableau
Réponses × {formes lexicales, variables}
¾ Création du tableau T par la procédure TEXNU
¾ Analyse des correspondances du tableau :
300 lignes (réponses) × 66 colonnes
(58 formes lexicales + 8 variables nominales)
les 8 variables nominales sont illustratives
les segments peuvent être aussi éléments illustratifs
¾ Cette analyse est suivie d’une classification.
19/04/2005
EDOGEST
20
Partition des individus : Description de la classe 2
Classe: CLASSE 2 / 5 (Effectif:
14 - Pourcentage: 1.45)
% de la
% de la
% de la
modalité dans modalité dans classe dans la Valeur-Test
modalité
l'échantillon
la classe
Libellés des variables
Modalités
caractéristiques
Nombre idéal d'enfants
région
Opinion sur le mariage
Taille d'agglomération
Profession
0 ou 1 enfant
Est
Union indissoluble
100 000 et +
ouvrier
85,71
71,43
78,57
78,57
64,29
7,98
13,06
24,66
32,75
22,80
15,58
7,94
4,62
3,48
4,09
Opinion sur le mariage
Nombre idéal d'enfants
Nombre idéal d'enfants
Taille d'agglomération
région
Opinion sur le mariage
diss. cas grave
trois enfants
deux enfants
Paris
Paris
diss.accord mutuel
0,00
0,00
14,29
0,00
0,00
0,00
27,88
31,40
53,47
34,09
35,23
43,73
0,00
0,00
0,39
0,00
0,00
0,00
Probabilité
Poids
6,92
4,84
4,01
3,27
3,10
0,000
0,000
0,000
0,001
0,001
77
126
238
316
220
-2,33
-2,58
-2,76
-2,77
-2,85
-3,44
0,010
0,005
0,003
0,003
0,002
0,000
269
303
516
329
340
422
CLASSE 2 / 5
Fréquences caractéristiques
SOUCIS
CHER
19/04/2005
% de la fréquence dans
l'échantillon
0,73
0,93
% de la
% de la
fréquence classe dans la Valeur-Test
dans la classe fréquence
50,00
14,29
EDOGEST
100,00
22,22
7,54
2,48
Probabilité
Poids
0,000
0,007
7
9
21
Comparaison des deux approches
Analyse des Correspondances du
tableau lexical agrégé C, suivie d’une Classification
¾ Visualisation des proximités entre formes lexicales et
catégories.
¾ Dans la classification des formes lexicales, chaque
groupe de formes lexicales est caractérisé par des
modalités des variables nominales actives et illustratives.
19/04/2005
EDOGEST
22
Comparaison des deux approches
Analyse des Correspondances du
tableau T, suivie d’une Classification
¾ La proximité de deux formes lexicales étant d’autant
plus grande qu’elles apparaissent dans une même réponse,
cette analyse rend mieux compte des contextes que celle du
tableau lexical agrégé.
¾ Dans la classification des réponses, chaque groupe de
réponses est caractérisé par des formes lexicales actives et
illustratives, et des modalités des variables nominales
illustratives.
19/04/2005
EDOGEST
23
Conclusion
Traitements automatiques des textes
¾ Thesaurus
¾ Web Mining
Indexation de textes
¾ Langage naturel
¾ Text Mining, Analyse des Données Textuelles
¾ Applications :
Analyse de discours (politique…)
Recherches documentaires
Stylométrie…
19/04/2005
EDOGEST
24
Bibliographie
¾ Brugidou M. et al. (2000) Les facteurs de choix et d’utilisation de
logiciels d’Analyse de Données Textuelles, 5èmes Journées
Internationales d’Analyse Statistique des Données Textuelles.
¾ Grangé D., Lebart L. (1994) Traitements statistiques des enquêtes,
Dunod.
¾ Lebart L., Salem A. (1994) Statistique textuelle, Dunod.
¾ Quatrain Y., Nugier S., Peradotto A., Garrouste D. (2004) Evaluation
d’outils de Text Mining : démarche et résultats, 7èmes Journées
Internationales d’Analyse Statistique des Données Textuelles.
19/04/2005
EDOGEST
25
Téléchargement