Résumé
La comparaison de classification est l’une des questions ouvertes en analyse de données.
Le besoin de comparer deux partitions survient lors de l’étude de deux enquêtes portant
soit sur les mêmes individus, soit sur un même questionnaire. L’objectif de notre travail
est d’étudier ces différentes approches et de trouver des procédures formalisées qui
reposent sur des modèles probabilistes d’écart à une typologie qui soient réalistes pour le
cas de comparaison de deux partitions dans les différents contextes.
Dans notre thèse, nous proposons une procédure pour comparer deux partitions proches.
Notre approche consister à étudier la distribution de divers indices d’associations en
engendrant par simulation des partitions qui devraient être proches car issues d’un même
modèle sous-jacent qui est le modèles des classes latentes. Nous présentons les écritures
contingentielles et relationnelles de ces indices de comparaison et nous cherchons leurs
distributions d’échantillonnage sous l’hypothèse de liaison forte.
Pour comparer des partitions, basées sur les mêmes variables, nous proposons une
méthode par projection de partitions utilisant l’analyse discriminante linéaire sur l’une
des partitions et le reclassement des individus de l’autre partition sur les classes de la
première. Nous présentons une autre approche basée sur l’utilisation de la classification
des variables qui consiste en particulier à comparer les arbres hiérarchiques à partir
d’indices de consensus.
Mots- clés: classes latentes, partition, indices d’associations, analyse discriminante
linéaire, classification des variables, indices de consensus.
Abstract
Comparing partitions is one of the open-ended questions in data analysis. The need to
compare two partitions occurs during the study of two surveys having the same data set
or the same questionnaires. The goal of our work is to study these different approaches
and to find formal procedures based on probabilistic models that are realistic in the case
of comparing close partitions.
In our theses, we propose a methodology to compare two “near-identical partitions”. Our
approach consists in studying the empirical distribution of some association measures by
simulating similar partitions coming from a common latent class model. We present the
contingential and the paired comparisons forms for the association measures. We study
the empirical distribution for these indexes under the hypothesis of close partitions.
For comparing partitions of different units based on the same questionnaires, we propose
a method of projection of partitions using linear discriminant analysis on one of the
partitions and allocating the units of the other partition in the classes of the first one. We
present another approach based on the use of the classification of variables for which the
procedure consists in comparing these classification according to consensus indices.
Keywords. Latent class, partitions, association indices, linear discriminant analysis,
classification of variables, consensus indices.