1
Questions de la méthode et techniques d’analyse de l’enquête
Andrei Mogoutov et Tania Vichnevskaia
Introduction
L’étude « Démographie au seuil de l’an 2000 » a été réalisée par les démographes, pour les
démographes et sur les démographes. Une des questions centrale de l’enquête est la recherche de
la définition d’une communauté de spécialistes de la population. L’appartenance à la population
cible s’avère un résultat de l’autodéfinition, c’est un produit d’une volonté des membres de la
communauté à répondre. Dans ce cas elle renvoi à une quête identitaire voir une construction
identitaire ou à une stratégie de prise de la parole au sein de la communauté de recherche définie par
quelques repères institutionnels et un certain nombre de mots-clés. Dans cette optique d’un
recensement professionnel d’une communauté dont on ne connaît ni la taille ni la définition, les
questions de la représentativité ne sont pas applicables dans le sens traditionnel.
En d’autres termes l’échantillon est représentatif de soi-même, cet objet est unique et complet dans le
cadre de l ‘étude telles quelle a été menée. Il résulte d’une diffusion de l’information qui a pu être
activé par les moyens des messages électroniques, des annonces lors des conférences et dans les
publications spécialisées, ainsi que sur des portails Internet. Cette structure initiale de communication
peut être considérée comme un réseau social des porteurs de l’information.
On propose un modèle d’un réseau hétérogène qui reflète cet objet. Les nœuds de ce réseau sont
représentés par les personnes, les institutions, les questions et les modalités des réponses aux
questions.
Technique d’analyse
Le statut particulier et la structure complexe de l’objet nous obligent de revoir et d’adapter la portée
d’application des méthodes analytiques et le niveau d’interprétation des résultats. Les indicateurs
issus de l’appareil statistique ne sont pas utilisés en tant que moyen de description statistique de
l’échantillon mais comme un éventuel outil de description et d’exploration d’un réseau hétérogène,
notre modèle de l’objet. Les indicateurs expriment l’importance relative de différentes modalités des
données ainsi que comme une force de lien (la co-occurrence) entre plusieurs questions.
La technique d’analyse des données est construite à partir de l’analyse des co-occurrences des
modalités dans le même questionnaire remplis. Cette approche est complémentaire à une description
quantitative plus traditionnelle exprimé sous une forme d’un tableau de fréquence de tableau croisé et
de différentes mesures statistiques ou des méthodes plus sophistiquées.
2
Nous examinerons dans la partie qui suit la description de la méthodologie suivie des exemples
d’analyse RéseauLu
1
.
Cartographie relationnelle des données, approche RéseauLu
(modèle, résultats et interprétation)
L’approche relationnelle RéseauLu a été initialement développée pour l’exploration et l’analyse des
réseaux hétérogènes. Cette notion articule toutes données pour lesquelles les notions d’éléments et
de liens entre ces éléments sont définies. Les individus, les institutions, les objets et les propriétés
sont considérés comme éléments à la même échelle sans qu'une hypothèse de structuration soit
définie a priori.
Pour le traitement de la présente enquête chaque questionnaire rempli est considé comme un
ensemble d’énoncés cohérent qui suit une logique et qui reflète une construction discursive. L’analyse
des données se réalise selon deux approches complémentaires :
a) description structurale - la restitution d’un réseau des entités sémantiques en tant que « structure
du possible » dans le cadre d’analyse d’un discours commun.
b) description quantitative utilisée comme une sorte de pondération, comme les propriétés
quantitatives projetées sur la « structure du possible »
Des algorithmes spécifiques ont été mis en œuvre dans RéseauLu pour permettre l’analyse et la
représentation de la structure des données, la schématisation et la cartographie des entités
analytiques. Les données sont considérées comme un ensemble d’éléments dans l’espace de deux
dimensions. Chaque élément se caractérise par deux aspects : les propriétés de l’élément et ses
liens.
Les propriétés sont exprimées soit par la couleur soit par la forme sur le graphe. Il est possible
d’utiliser des propriétés plus complexes, comme l’appartenance aux clusters lors d’une analyse
multivariée comme nous allons le présenter dans les exemples qui suivent.
La visualisation de liens se réalise à partir des données de la matrice de liens. Des algorithmes des
RéseauLu optimisent le positionnement des éléments sur le plan. La matrice originelle ne peut être
représentée sans déformation que dans un espace multidimensionnel. Pour diminuer la déformation
sur le plan, le logiciel utilise le positionnement dynamique qui simule l’interaction entre les éléments.
Trois niveaux d’optimisations sont réalisés :
1. Positionnement initial global des éléments les uns par rapport aux autres sur le plan
1
RéseauLu est un logiciel et un système analytique qui réunit dans un environnement analytique différents types de données
qualitatives et quantitatives: enquêtes, entretiens, bases de données, corpus de texts.
Le plan analytique permet de combiner l'analyse de différents aspects de données: relationnelles, temporelles et textuelles.
Trois types d’applications : analyse des données relationnelles, analyse biographique, analyse textuelle
Conception, développement : Andrei Mogoutov IDDN.FR.010 .0087977.000.R.P.2000.030.20000
Distribution AGUIDEL: www.aguidel.com
3
2. Optimisation au niveau micro du positionnement des éléments par rapport à leurs ‘voisins’ sur le
graphe
3. Optimisation du positionnement au niveau meso des groupes des éléments fortement
interconnectés
L’algorithme réalisé dans les versions actuelles du logiciel combine plusieurs approches de simulation
directe de déplacement des éléments géométriques en présence des forces aléatoires, de la
projection non - linéaire sur un plan d’une structure multidimensionnelle, de la mise en échelle des
distances entre les éléments, le calcul des groupes d'éléments et l'ordre de leur apparition dans la
structure.
La représentation finale utilise plusieurs critères
- tient compte de l’ensemble de liens entre les éléments ;
- tend à minimiser le nombre de croisements des liens ;
- place les éléments le plus «lisiblement » possible en minimisant l’intersection des points ;
- place les éléments le plus symétriquement possible ;
- place les éléments complètement connectés dans un espace à une densité uniforme ;
- place les groupes d’éléments fortement connectés «ensemble » sur la carte en formant les amas
des points ;
- place ensemble sur la carte les éléments avec une forte similitude des positions structurales
L’orientation du réseau final est déterminée par la position des éléments les plus connectés.
Exemple 1a. Cooccurrence des noms des démographes cités comme références.
L’exemple suivant illustre l’analyse des cooccurrences des noms des démographes importants pour
les travaux personnels cités par l’ensemble des répondants. Dans cet exemple les éléments
correspondent aux noms cités et les liens signifient que les deux noms ont étés cités par le même
répondant. Nous avons sélectionné pour l’analyse que les noms dont la fréquence de citation est
supérieure à 1.
L’analyse se produit en deux étapes :
1. construction d’une matrice des liens
2. visualisation des liens
4
La matrice des liens représente un tableau à double entrée, le ‘1’ signifiant que les deux noms ont été
cité par le même répondant et le ‘0’ qu’ils ne l’ont jamais été. Vous trouverez sur la fig.1 le sous
réseau I qui correspond à la matrice des liens du Tableau 1.
Smith S
Morrison P.
Tayman J.
Swanson D.
Shryock H.S
Smith S
1
1
1
0
Morrison P.
1
1
1
1
Tayman J.
1
1
1
1
Swanson D.
1
1
1
1
Shryock H.S
0
1
1
1
Notestein F.W.
0
0
0
0
1
Tableau 1. Extrait d’un tableau de liens de cooccurrence des noms des démographes contemporains
cités comme références pour les travaux personnels des répondants (seuil de fréquence >=2).
5
Coleman J
Caldwell J C
Coale A
Keyfitz N
Bongaarts J
Lesthaeghe R
Preston S H
Henry L
Brass W
Demeny P
Lee R D
Pressat R
Rogers A
Courgeau D
Davis K
Easterlin R A
Becker G S
Van de Kaa D
Bourgeois-Pichat J
Sauvy A
Laslett P
Massey D
Bogue D
Ryder N
Vallin J
Amarthya Sen
Freedman R
Willekens F
Lutz W
Hoem J M
Cleland J
Greenhalgh S
Roussel L
Vaupel J
Valentei D
Livi Bacci M
Knodel J E
Dupaquier J
Westoff C
Schultz T
Wrigley E A
Boserup E
Urlanis B
Hajnal J
Léridon H
Bumpass L
Blossfeld H P
Piché V
Rees P
McKeown T
Mayer K U
Giddens A
Wunsch G J
Oppenheimer V K
Kuijstein A
Salt J
Keilman N
Locoh T
Portes A
Notestein F W
Goldscheider F
Chesnais C
Siegel J
Shryock H S
Le Bras H
Festy P
Braudel F
Calot G
Lee E S
Glass D V
Cox D
Thornton A
Mc Nicoll G
Murphy M
Coleman D
Tayman J
Thomson E
Hauser P
Darski A
Henripin J
Tsui
Manton K
Wachter K
Biraben J N
Antoine P
McDonald P
Feeney G
Lee
Anderson B
Furstenberg F
Tapinos G
Palloni A
Castells M
Mason K
Smil V
Bourdieu P
Uhlenberg P
Campbell D T
Tabutin D
Brown D
Cosio-Zavala M E
Swanson D
Watkins S C
Smith S
Champion T
Jejeebhoy
Harvey D
Reher D
Rohwer
Hill K
Kish L
Modell
Frey W
Morgan P
Volkov A
Borissov V
Thomas
Goubert P
Bardet J P
Bozon M
Todaro M
Lieberson S
Perret J
Légaré J
Castel R
Schoen R
Goody J
Cabré A
Morrison P
Szreter
Sanderson W C
Nerlove
Thumerelle P J
Hawley A
Elder G
Foucault M
Folbre N
Poppel V
Singer B
Warnes
Birg H
Romaniuc A
Caselli G
Chasteland J C
De Jong
Fig. 1. Cooccurrences des références nominatives des chercheurs contemporains qui représentent
une référence importante pour les travaux personnels des répondants seuil de fréquence >=2.
Extrait d’un commentaire
L’analyse RéseauLu dans cet exemple permet de relever la structure des références déclarées par
l’ensemble des répondants, tout en gardant les caractéristiques quantitatives. La position structurale
reflète les « voisinages » dans les citations tandis que la taille du point associé au nom - la fréquence
de citation dans l’ensemble de l’échantillon.
Sous-réseau I
Sous-réseau II
Sous-réseau III
Sous-réseau IV
1 / 16 100%