Regroupement de données multi-représentées par CoFKM
génétiques. De nombreuses autres situations se prêtent naturellement à l’étude de données
multi-représentées. Citons pour compléter les données biologiques (plusieurs niveaux de des-
cription pour les molécules), les données médicales (radiographies, comptes-rendus médicaux,
analyses biologiques d’un patient), les données textuelles (descriptions lexicales, morphosyn-
taxiques et sémantiques de la langue), etc.
Dans le cadre de la classification non-supervisée il s’agit d’organiser l’ensemble des indivi-
dus en classes d’individus similaires (Jain et al. (1999),Tan et al. (2005)) de manière à réaliser
un consensus sur un ensemble des représentations. Deux stratégies naturelles pour procéder au
regroupement sur données multi-représentées consisteraient à fusionner des informations en
amont (fusion a priori) ou en aval (fusion a posteriori) d’un processus traditionnel de cluste-
ring.
La fusion a priori reviendrait à concaténer l’ensemble des descripteurs ou à combiner les
matrices de proximités de chaque représentation (e.g. Heer et Chi (2002)) : cette manière de
procéder conduit à mélanger les niveaux de description et risque de gommer les caractéristiques
propres à chaque niveau de représentation, d’autre part l’écueil de la dimensionalité s’en trouve
renforcée; nous montrerons cependant qu’en pratique cette méthode peut conduire à de bons
résultats.
La fusion a posteriori reviendrait cette fois à réaliser plusieurs processus de regroupement
sur chaque représentation indépendamment puis à définir une manière de combiner ces orga-
nisations en un seul schéma final de classification. Dans cette approche, l’indépendance de
chaque processus conduira à des organisations parfois éloignées qui seront d’autant plus dif-
ficile à concilier dans l’étape ultime; cette approche est peu utilisée et nous observerons en
pratique les faibles performances qu’elle engendre.
Nous choisissons d’explorer une troisième voie consistant à réaliser la fusion des informa-
tions au cours du processus de classification : approche collaborative. Pour cela nous nous ins-
pirons du travail récent de Bickel et Scheffer (2005) visant à étendre les modèles de mélanges
au cas des données multi-représentées (Co-EM). Nous proposons un modèle de classification
floue qui généralise à la fois les approches collaboratives, de fusion a priori et a posteriori. Le
choix d’un modèle flou permet d’envisager une solution algorithmique convergente (contraire-
ment au Co-EM actuel) et plus simple autant en terme de paramétrage que d’extension possible
au clustering à noyau.
L’article se décompose en quatre parties principales : nous présentons en section 2 quelques
méthodes collaboratives pour le traitement de données multi-représentées avant d’introduire en
section 3 le modèle CoFKM sur lequel s’appuie cette étude; la section 4 présente une expéri-
mentation préliminaire du modèle illustrant le comportement de l’algorithme, sa performance
et son caractère généralisant sur un jeu de données adapté. Enfin la section 5 présente en
conclusion quelques pistes d’amélioration du modèles CoFKM.
2 Étatdel’artsurlaclassificationdedonnéesmulti-représentées
Nous présentons dans cette section un aperçu des différents modèles de classification pro-
posés pour traiter les données multi-représentées. Nous nous focalisons sur les modèles guidés
par un critère objectif prenant en compte les différentes représentations.
Dans le cas particulier de données multimédia, Bekkerman et Jeon (2007) utilisent le mo-
dèle récent des champs de markov aléatoires combinatoires (Comraf : Combinatorial Markov