Université Paris – Dauphine Ecole Doctorale de Gestion M. Gettler – Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte ¾ Souhaitez-vous ajouter des informations que ce questionnaire n’a pas permis de recueillir ? ¾ Contexte : question finale ¾ Intention des concepteurs : redonner la main aux enquêtés ¾ Conséquence : espace de liberté important du fait d’une question très ouverte (avantage et inconvénient) 19/04/2005 EDOGEST 2 Exploration des données textuelles 1. 2. 3. Disposer d’une base contenant au moins une variable textuelle et au moins une variable nominale. Créer le « Vocabulaire des mots et segments répétés ». Explorer les données textuelles : ¾ Recherche des « Contextes de mots », ¾ Recherche du « Vocabulaire spécifique » de groupes d’individus, ¾ Construction de « Tableaux lexicaux » de contingence pour comprendre les liaisons entre le vocabulaire et les groupes d’individus. 19/04/2005 EDOGEST 3 Les unités statistiques de base ¾ Les formes graphiques Suite de caractères non-délimiteurs entourée par des caractères délimiteurs : un même mot peut donner lieu à plusieurs formes graphiques selon son genre ou sa conjugaison, une même forme graphique peut renvoyer à plusieurs mots. ¾ Les segments répétés Unités plus larges composées de plusieurs formes graphiques : sécurité d’emploi, études supérieures… Les segments sont le plus souvent formés de deux mots et rarement de plus de quatre mots (mots composés…) 19/04/2005 EDOGEST 4 Formes lexicales Mots et segments ⇒ Formes lexicales Les comparaisons n’ont de sens que si les formes lexicales apparaissent avec une certaine fréquence. Il convient d’écarter les hapax (formes n’apparaissant qu’une fois) et les formes rares. On peut ne garder que les formes apparaissant au moins k fois (k = 5, par exemple). La présence de mots-outils (dans, par, que, qui, des…) n’est justifiée que si ces mots caractérisent certaines catégories. 19/04/2005 EDOGEST 5 Problèmes ¾ Mots homographes et homophones être : nom masculin, mais aussi verbe à l’infinitif lit : nom masculin, mais renvoie aussi au verbe lire son : nom masculin, mais aussi pronom personnel ¾ Mots homographes et non homophones couvent : nom masculin, mais renvoie aussi au verbe couver ⇒ Ne pas travailler à l’aveugle 19/04/2005 EDOGEST 6 La numérisation du texte ¾ « Lemmatisation » du vocabulaire Regrouper les formes graphiques correspondant à un même mot, épurer le vocabulaire des mots-outils non informatifs (articles…), mais ne pas éliminer trop rapidement : certains mots-outils peuvent être caractéristiques d’attitudes ou d’opinions, des formes graphiques différentes d’un même mot peuvent ne pas être équivalentes. ¾ Création de mots thématiques Rechercher les contextes d’emploi des mots à l’aide de la procédure CORDA de SPAD, ce qui permet de repérer les segments. 19/04/2005 EDOGEST 7 La numérisation du texte avec SPAD (Texte de l’aide en ligne de SPAD) Principes généraux d’exploration des données textuelles ¾ A partir du vocabulaire initial des mots, procédez avec l’outil CORTEX à la mise en équivalence des mots et à des corrections d’orthographe (ne supprimez pas de mots). ¾ Après ce travail, créez le vocabulaire des segments répétés. Sur ce nouveau vocabulaire contenant les mots et les segments, vous pourrez supprimer les formes (mots ou segments) de fréquences faibles ou les mots-outils pour obtenir un vocabulaire plus robuste pour les analyses. 19/04/2005 EDOGEST 8 Les filières SPAD Module « Analyses Textuelles » ¾ Construction du vocabulaire ¾ Contexte des mots et vocabulaire spécifique de groupes d’individus ¾ Analyse d’un tableau lexical ¾ Analyse d’un tableau lexical et classification ¾ Création d’une base mots/segments/variables 19/04/2005 EDOGEST 9 Vocabulaire spécifique 1 La procédure VOSPEC recherche et édite les mots et segments répétés caractéristiques de groupes d’individus en fonction de la fréquence. Les mots et segments répétés sont édités par ordre de « valeurs-tests » décroissantes : ¾ une valeur-test élevée (> 2) indique un mot ou segment plus fréquemment rencontrés dans le groupe qu’en moyenne, ¾ une valeur-test faible (< - 2) indique un mot ou segment moins souvent rencontrés dans le groupe qu’en moyenne. 19/04/2005 EDOGEST 10 Vocabulaire spécifique 2 La procédure VOSPEC édite également les phrases caractéristiques des groupes d’individus selon deux critères : ¾ le 1er critère « moyenne des valeurs-tests » des mots de la phrase a tendance à favoriser les réponses courtes, ¾ le 2nd critère classant les phrases par ordre de distance croissante à la réponse moyenne du groupe d’individus (au sens de la distance du Khi-deux) a tendance à favoriser les réponses longues. 19/04/2005 EDOGEST 11 Tableau lexical de contingence La procédure TALEX construit un tableau de contingence C avec : En ligne, les mots et segments répétés du vocabulaire en cours, En colonne, les modalités des variables nominales choisies. cij = nombre de fois où la forme lexicale « i » a été utilisée par les individus possédant la modalité « j » de la variable nominale. 19/04/2005 EDOGEST 12 Traitement d’un tableau lexical ¾ L’Analyse des Correspondances du tableau C permet de visualiser les associations entre les formes lexicales et les modalités. ¾ Cette analyse peut être suivie d’une classification. 19/04/2005 EDOGEST 13 Enquête réalisée en 1984 par le CREDOC « Conditions de Vie et Aspirations des Français » ¾ Enquête : Famille, Travail, Énergie… ¾ Base SPAD : 300 individus extraits au hasard parmi 2000 Deux questions ouvertes : Pourquoi ce nombre idéal d’enfants ? Pourquoi avez-vous cette opinion sur le mariage ? 19/04/2005 EDOGEST 14 Problématiques ¾ Existe-t-il des mots qui se regroupent ? ¾ Vocabulaire des mots : Qui les emploie ? Comment ? Différence entre les hommes et les femmes ? … ¾ Visualisation des proximités textuelles 19/04/2005 EDOGEST 15 Procédure CORDA Contextes du mot: FAMILIAL BON POUR L EQUILIBRE FAMILIAL BIEN EQUILIBRE FAMILIAL BON POUR EQUILIBRE FAMILIAL POUR L EQUILIBRE FAMILIAL ET POUR LES ENFANTS CA FAIT PLUS D OUVERTURE QUATRE IDEAL POUR L EQUILIBRE FAMILIAL PAS MOINS QUATRE BON POUR L EQUILIBRE FAMILIAL 31 56 71 107 237 238 Contextes du mot: FAMILLES ADORE LES GRANDES FAMILLES LES FAMILLES NOMBREUSES SONT TRES PENALISEES DANS NOTRE SOCIETE HELAS LES LOGEMENTS NE SONT PAS PREVUS POUR LES GRANDES FAMILLES UN JE NE SUIS PAS POUR LES FAMILLES NOMBREUSES TROIS LES FAMILLES UN PEU NOMBREUSES C EST BIEN POUR LES ENFANTS CA LES DES FAMILLES MOYENNES 6 J AIME LES GRANDES FAMILLES 3 POUR LA FRANCE IL FAUDRAIT DE TELLES FAMILLES MAIS LES GENS ONT ILS LES MOYENS NON N EST CE PAS 7 J AIME LES FAMILLES NOMBREUSES J AIME LES GRANDES FAMILLES 19/04/2005 EDOGEST 16 30 41 138 176 196 212 248 262 268 271 Traitement du tableau lexical Procédure CORBIT ¾ Analyse des correspondances du tableau : 58 formes lexicales × 4 variables nominales avec 8 variables nominales illustratives ¾ Cette analyse est suivie d’une classification. 19/04/2005 EDOGEST 17 Partition en 5 classes des formes lexicales Composition des classes COMPOSITION DE : Coupure l'arbre en CLASSE 1 / 5 ACTUEL DIFFICILE GARCON TEMPS CLASSE AVENIR DUR MOYENNE TROUVER 2 / CONDITION FEMME SITUATION C EST SUFFISANT DEUX FILLE SUFFISANT CHER EPANOUIE MERE PROBLEME UNIQUE COUT FINANCIER MOYENS RAISONNABLE VOULU EDUCATION IDEAL PARENTS SEUL C EST IDEAL ENFANT LOURD PERE SOCIETE ENFANT UNIQUE ASSURE NOMBRE EGOISME NOMBREUSE SURCHARGE 3 / 5 CHARGE ENNUIS MATERIEL POSSIBILITE TRAVAIL LOURDE CHARGE CLASSE CHOMAGE ELEVER POUVOIR VIE 5 SOUCIS CLASSE 5 classes 4 / 5 5 / 5 QUATRE CLASSE AIME MAISON 19/04/2005 EDOGEST EQUILIBRE TROIS FAMILLE EQUILIBRE DE LA FAMILLE 18 Partition des formes lexicales Description de la classe 5 CLASSE 5 / 5 % de la % de la fréquence classe dans la Valeur-Test Probabilité dans la classe fréquence Fréquences caractéristiques % de la fréquence dans l'échantillon Nombre idéal "trois enfants" Nombre idéal "quatre ou plus" Ouest Dip.sup 7,85 1,76 4,61 2,95 14,39 3,46 6,49 4,44 43,89 47,06 33,71 35,96 7,92 4,08 2,94 2,83 0,000 0,000 0,002 0,002 303 68 178 114 Est employé Nombre idéal "0 ou 1 enfant" Nombre idéal "deux enfants" 3,26 4,27 1,99 13,37 1,73 2,38 0,54 6,49 12,70 13,33 6,49 11,63 -3,07 -3,34 -3,90 -7,46 0,001 0,000 0,000 0,000 126 165 77 516 19/04/2005 EDOGEST Poids 19 Traitement du tableau Réponses × {formes lexicales, variables} ¾ Création du tableau T par la procédure TEXNU ¾ Analyse des correspondances du tableau : 300 lignes (réponses) × 66 colonnes (58 formes lexicales + 8 variables nominales) les 8 variables nominales sont illustratives les segments peuvent être aussi éléments illustratifs ¾ Cette analyse est suivie d’une classification. 19/04/2005 EDOGEST 20 Partition des individus : Description de la classe 2 Classe: CLASSE 2 / 5 (Effectif: 14 - Pourcentage: 1.45) % de la % de la % de la modalité dans modalité dans classe dans la Valeur-Test modalité l'échantillon la classe Libellés des variables Modalités caractéristiques Nombre idéal d'enfants région Opinion sur le mariage Taille d'agglomération Profession 0 ou 1 enfant Est Union indissoluble 100 000 et + ouvrier 85,71 71,43 78,57 78,57 64,29 7,98 13,06 24,66 32,75 22,80 15,58 7,94 4,62 3,48 4,09 Opinion sur le mariage Nombre idéal d'enfants Nombre idéal d'enfants Taille d'agglomération région Opinion sur le mariage diss. cas grave trois enfants deux enfants Paris Paris diss.accord mutuel 0,00 0,00 14,29 0,00 0,00 0,00 27,88 31,40 53,47 34,09 35,23 43,73 0,00 0,00 0,39 0,00 0,00 0,00 Probabilité Poids 6,92 4,84 4,01 3,27 3,10 0,000 0,000 0,000 0,001 0,001 77 126 238 316 220 -2,33 -2,58 -2,76 -2,77 -2,85 -3,44 0,010 0,005 0,003 0,003 0,002 0,000 269 303 516 329 340 422 CLASSE 2 / 5 Fréquences caractéristiques SOUCIS CHER 19/04/2005 % de la fréquence dans l'échantillon 0,73 0,93 % de la % de la fréquence classe dans la Valeur-Test dans la classe fréquence 50,00 14,29 EDOGEST 100,00 22,22 7,54 2,48 Probabilité Poids 0,000 0,007 7 9 21 Comparaison des deux approches Analyse des Correspondances du tableau lexical agrégé C, suivie d’une Classification ¾ Visualisation des proximités entre formes lexicales et catégories. ¾ Dans la classification des formes lexicales, chaque groupe de formes lexicales est caractérisé par des modalités des variables nominales actives et illustratives. 19/04/2005 EDOGEST 22 Comparaison des deux approches Analyse des Correspondances du tableau T, suivie d’une Classification ¾ La proximité de deux formes lexicales étant d’autant plus grande qu’elles apparaissent dans une même réponse, cette analyse rend mieux compte des contextes que celle du tableau lexical agrégé. ¾ Dans la classification des réponses, chaque groupe de réponses est caractérisé par des formes lexicales actives et illustratives, et des modalités des variables nominales illustratives. 19/04/2005 EDOGEST 23 Conclusion Traitements automatiques des textes ¾ Thesaurus ¾ Web Mining Indexation de textes ¾ Langage naturel ¾ Text Mining, Analyse des Données Textuelles ¾ Applications : Analyse de discours (politique…) Recherches documentaires Stylométrie… 19/04/2005 EDOGEST 24 Bibliographie ¾ Brugidou M. et al. (2000) Les facteurs de choix et d’utilisation de logiciels d’Analyse de Données Textuelles, 5èmes Journées Internationales d’Analyse Statistique des Données Textuelles. ¾ Grangé D., Lebart L. (1994) Traitements statistiques des enquêtes, Dunod. ¾ Lebart L., Salem A. (1994) Statistique textuelle, Dunod. ¾ Quatrain Y., Nugier S., Peradotto A., Garrouste D. (2004) Evaluation d’outils de Text Mining : démarche et résultats, 7èmes Journées Internationales d’Analyse Statistique des Données Textuelles. 19/04/2005 EDOGEST 25