Pratique de l`analyse des données numériques et textuelles avec

1

Pratique de l'analyse des données

numériques et textuelles

avec Dtm-Vic

(Troisième édition, Septembre 2016)

(Version 6 de Dtm-Vic)

Ludovic Lebart

Marie Piron

2

ISBN 978-2-9537772-3-9

3

Sommaire

Introduction ...................................................................................... 5

I. Présentation générale de Dtm-Vic ................................................ 8

1. Mise en place des fichiers de données

2. Techniques d’analyse de données

3. Visualisation des résultats

4. La boite à outils

5. Format interne des fichiers de données

II. Données numériques :

Prise en main de Dtm-Vic à partir de trois exemples ................... 22

 Analyse en Composantes Principales

 Analyse des Correspondances

 Analyse des Correspondances Multiples

III. Données textuelles et mixtes :

Prise en main de Dtm-Vic à partir de trois exemples ................... 63

1. Simples textes : Série de poèmes

2. Analyse Textuelle de questions ouvertes

3. Analyse directe de réponses libres

IV. Importation, création et exportation des fichiers ................ 101

1. Fichiers numériques et textuels à partir d’Excel (r)

2. Saisie manuelle de données numériques

3. Exportation vers Excel.

V. Recodage, archivage, outils divers .......................................... 115

1. Recodage, archivage

2. Intervention élémentaire sur une base de données

3. Prétraitements numériques

4. Prétraitements textuels

5. Lemmatisation

VI. Autres analyses avec Dtm-Vic................................................. 131

1. Données numériques : Semiométrie

4

2. Données numériques : Contiguïté (Iris de Fisher / Anderson)

3. Description de graphes

4. Reconstitution d’images

VII. Annexe : Notions de statistique multidimensionnelle ......... 175

1. Rappels des principes des méthodes exploratoires

2. Les méthodes factorielles, aspects techniques

3. Analyse en composantes principales (ACP)

4. Analyse des correspondances (AC)

5. Analyse des correspondances multiples (ACM)

6. Autres méthodes

7. Classification hiérarchiques, Arbre de longueur minimale

8. Partitions, cartes auto-organisées

9. Classification mixte (ou : hybride)

10. Méthodes de validation

Références bibliographiques sommaires .................................... 212

Dtm-Vic

Data and text mining

Visualization, inference, classification

Logiciel d’analyse exploratoire multidimensionnelle

de données numériques et textuelles

Librement téléchargeable sur : www.dtmvic.com

5

Introduction

Dtm-Vic est un logiciel consacré à l'analyse exploratoire multidimensionnelle des

données numériques et textuelles.

L'analyse exploratoire, comme son nom le suggère, est une démarche préliminaire de

contact avec un recueil de données, contact suivi d'investigations, de description, sans

se limiter à un protocole fixé à l'avance. L'exploration suppose que les données sont

complexes, que les connaissances a priori sur ces données sont limitées.

L'analyse multidimensionnelle, elle, s'attache au cas où les dimensions (le plus

souvent: les variables) sont nombreuses, ce qui est un facteur de complexité, et par

conséquent une incitation à commencer par une démarche exploratoire. Une autre

incitation plus technique à utiliser cette démarche concerne le caractère peu réaliste

des hypothèses statistiques distributionnelles dans le cas multidimensionnel, qui rend

malaisée l'utilisation codifiée des tests d'hypothèses.

L'analyse exploratoire multidimensionnelle des données numériques sera un volet

important du logiciel Dtm-Vic. Les outils de base en sont d'une part les méthodes

factorielles (ou analyses en axes principaux) telles que l'analyse en composantes

principales, les analyses des correspondances simples et multiples, d'autre part les

méthodes de classification (classification hiérarchique, méthodes de partitionnement,

cartes auto-organisées). Ces techniques ne s'excluent pas mutuellement, elles sont au

contraire systématiquement utilisées comme des techniques complémentaires

apportant chacune des points de vue indispensables sur la réalité statistique. L'ouvrage

de base qui accompagne les méthodes mises en oeuvre dans Dtm-Vic s’intitule:

"Statistique Exploratoire Multidimensionnelle"

1

.

Les données textuelles sont, en particulier, des données à la fois multidimensionnelles

et complexes. Elles sont donc des candidats possibles aux traitements proposés par les

analyses exploratoires. Elles sont souvent associées à des données numériques. C'est

le cas emblématique des enquêtes par sondage comportant à la fois des questions

fermées (données numériques continues et variables nominales) et des questions

ouvertes (données textuelles). Ces données d'enquêtes constituent l'exemple-type

autour duquel s'est développé Dtm-Vic. Une partie importante des méthodes mises en

oeuvre dans le volet textuel du logiciel Dtm-Vic sont présentées et commentées dans

l'ouvrage "Statistique textuelle"

2

(téléchargeable à partir de www.dtmvic.com).

1

Statistique Exploratoire Multidimensionnelle. Visualisation et Inférence en Fouille de

Données. Ludovic Lebart, Marie Piron, Alain Morineau (2006). 4ème ed. Dunod, Paris.

2

Statistique textuelle. Ludovic Lebart, André Salem (1994), Dunod, Paris. La version anglaise:

Exploring Textual Data (L. Lebart, A. Salem, E. Berry, 1998, Kluwer, Dordrecht) inclut des

exemples utilisés dans ce manuel.

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

Pratique de l`analyse des données numériques et textuelles avec

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Pratique de l`analyse des données numériques et textuelles avec

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib