Université Paris – Dauphine
Ecole Doctorale de Gestion
M. Gettler – Summa, C. Pardoux
ANALYSE DES
DONNÉES TEXTUELLES
Traitement automatique
des questions ouvertes
19/04/2005 EDOGEST 2
Question ouverte
¾Souhaitez-vous ajouter des informations que ce
questionnaire n’a pas permis de recueillir ?
¾Contexte : question finale
¾Intention des concepteurs : redonner la main aux
enquêtés
¾Conséquence : espace de liberté important du fait d’une
question très ouverte (avantage et inconvénient)
19/04/2005 EDOGEST 3
Exploration des données textuelles
1. Disposer d’une base contenant au moins une variable
textuelle et au moins une variable nominale.
2. Créer le « Vocabulaire des mots et segments répétés ».
3. Explorer les données textuelles :
¾Recherche des « Contextes de mots »,
¾Recherche du « Vocabulaire spécifique » de groupes d’individus,
¾Construction de « Tableaux lexicaux » de contingence pour
comprendre les liaisons entre le vocabulaire et les groupes
d’individus.
19/04/2005 EDOGEST 4
Les unités statistiques de base
¾Les formes graphiques
Suite de caractères non-délimiteurs entourée par des
caractères délimiteurs : un même mot peut donner lieu à
plusieurs formes graphiques selon son genre ou sa
conjugaison, une même forme graphique peut renvoyer à
plusieurs mots.
¾Les segments répétés
Unités plus larges composées de plusieurs formes
graphiques : sécurité d’emploi, études supérieures
Les segments sont le plus souvent formés de deux mots et
rarement de plus de quatre mots (mots composés…)
19/04/2005 EDOGEST 5
Formes lexicales
Mots et segments Formes lexicales
Les comparaisons n’ont de sens que si les formes lexicales
apparaissent avec une certaine fréquence.
Il convient d’écarter les hapax (formes n’apparaissant qu’une
fois) et les formes rares. On peut ne garder que les formes
apparaissant au moins kfois (k= 5, par exemple).
La présence de mots-outils (dans, par, que, qui, des…) n’est
justifiée que si ces mots caractérisent certaines catégories.
1 / 25 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !