1
Pratique de l'analyse des données
numériques et textuelles
avec Dtm-Vic
(Troisième édition, Septembre 2016)
(Version 6 de Dtm-Vic)
Ludovic Lebart
Marie Piron
2
© L2C Septembre 2016
ISBN 978-2-9537772-3-9
3
Sommaire
Introduction ...................................................................................... 5
I. Présentation générale de Dtm-Vic ................................................ 8
1. Mise en place des fichiers de données
2. Techniques d’analyse de données
3. Visualisation des résultats
4. La boite à outils
5. Format interne des fichiers de données
II. Données numériques :
Prise en main de Dtm-Vic à partir de trois exemples ................... 22
Analyse en Composantes Principales
Analyse des Correspondances
Analyse des Correspondances Multiples
III. Données textuelles et mixtes :
Prise en main de Dtm-Vic à partir de trois exemples ................... 63
1. Simples textes : Série de poèmes
2. Analyse Textuelle de questions ouvertes
3. Analyse directe de réponses libres
IV. Importation, création et exportation des fichiers ................ 101
1. Fichiers numériques et textuels à partir d’Excel (r)
2. Saisie manuelle de données numériques
3. Exportation vers Excel.
V. Recodage, archivage, outils divers .......................................... 115
1. Recodage, archivage
2. Intervention élémentaire sur une base de données
3. Prétraitements numériques
4. Prétraitements textuels
5. Lemmatisation
VI. Autres analyses avec Dtm-Vic................................................. 131
1. Données numériques : Semiométrie
4
2. Données numériques : Contiguïté (Iris de Fisher / Anderson)
3. Description de graphes
4. Reconstitution d’images
VII. Annexe : Notions de statistique multidimensionnelle ......... 175
1. Rappels des principes des méthodes exploratoires
2. Les méthodes factorielles, aspects techniques
3. Analyse en composantes principales (ACP)
4. Analyse des correspondances (AC)
5. Analyse des correspondances multiples (ACM)
6. Autres méthodes
7. Classification hiérarchiques, Arbre de longueur minimale
8. Partitions, cartes auto-organisées
9. Classification mixte (ou : hybride)
10. Méthodes de validation
Références bibliographiques sommaires .................................... 212
Dtm-Vic
Data and text mining
Visualization, inference, classification
Logiciel d’analyse exploratoire multidimensionnelle
de données numériques et textuelles
Librement téléchargeable sur : www.dtmvic.com
5
Introduction
Dtm-Vic est un logiciel consacré à l'analyse exploratoire multidimensionnelle des
données numériques et textuelles.
L'analyse exploratoire, comme son nom le suggère, est une démarche préliminaire de
contact avec un recueil de données, contact suivi d'investigations, de description, sans
se limiter à un protocole fixé à l'avance. L'exploration suppose que les données sont
complexes, que les connaissances a priori sur ces données sont limitées.
L'analyse multidimensionnelle, elle, s'attache au cas les dimensions (le plus
souvent: les variables) sont nombreuses, ce qui est un facteur de complexité, et par
conséquent une incitation à commencer par une démarche exploratoire. Une autre
incitation plus technique à utiliser cette démarche concerne le caractère peu réaliste
des hypothèses statistiques distributionnelles dans le cas multidimensionnel, qui rend
malaisée l'utilisation codifiée des tests d'hypothèses.
L'analyse exploratoire multidimensionnelle des données numériques sera un volet
important du logiciel Dtm-Vic. Les outils de base en sont d'une part les méthodes
factorielles (ou analyses en axes principaux) telles que l'analyse en composantes
principales, les analyses des correspondances simples et multiples, d'autre part les
méthodes de classification (classification hiérarchique, méthodes de partitionnement,
cartes auto-organisées). Ces techniques ne s'excluent pas mutuellement, elles sont au
contraire systématiquement utilisées comme des techniques complémentaires
apportant chacune des points de vue indispensables sur la réalité statistique. L'ouvrage
de base qui accompagne les méthodes mises en oeuvre dans Dtm-Vic s’intitule:
"Statistique Exploratoire Multidimensionnelle"
1
.
Les données textuelles sont, en particulier, des données à la fois multidimensionnelles
et complexes. Elles sont donc des candidats possibles aux traitements proposés par les
analyses exploratoires. Elles sont souvent associées à des données numériques. C'est
le cas emblématique des enquêtes par sondage comportant à la fois des questions
fermées (données numériques continues et variables nominales) et des questions
ouvertes (données textuelles). Ces données d'enquêtes constituent l'exemple-type
autour duquel s'est développé Dtm-Vic. Une partie importante des méthodes mises en
oeuvre dans le volet textuel du logiciel Dtm-Vic sont présentées et commentées dans
l'ouvrage "Statistique textuelle"
2
(téléchargeable à partir de www.dtmvic.com).
1
Statistique Exploratoire Multidimensionnelle. Visualisation et Inférence en Fouille de
Données. Ludovic Lebart, Marie Piron, Alain Morineau (2006). 4ème ed. Dunod, Paris.
2
Statistique textuelle. Ludovic Lebart, André Salem (1994), Dunod, Paris. La version anglaise:
Exploring Textual Data (L. Lebart, A. Salem, E. Berry, 1998, Kluwer, Dordrecht) inclut des
exemples utilisés dans ce manuel.
1 / 216 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !