M´
ethodes de classification organis´
ee pour la
recherche de communaut´
es dans les r´
eseaux
sociaux
Nathalie Villa1,2& Fabrice Rossi3
1– IUT STID, Carcassonne, Universit´e de Perpignan
Domaine Universitaire d’Auriac, F-11000 Carcassonne – France
2– Institut de Math´ematiques de Toulouse, Universit´e de Toulouse - UMR CNRS 5219
118 route de Narbonne, F-31062 Toulouse cedex 9 – France
3– Institut TELECOM, TELECOM ParisTech, LTCI - UMR CNRS 5141
46, rue Barrault, 75013 Paris – France
Mots cl´es : Analyse des donn´ees - data mining, Donn´ees ´economiques et sociales
Keywords: Data mining, economics and social data
1 R´esum´e
Les graphes sont l’outil math´ematique privil´egi´e pour mod´eliser des syst`emes dans lesquels
les individus sont d´ecrits par leurs interactions deux `a deux. On les retrouve de mani`ere
naturelle dans l’´etude des r´eseaux sociaux, des r´eseaux d’interactions biologiques, de
l’internet. . . Ces graphes peuvent atteindre des tailles importantes et, au-del`a d’une cen-
taine de sommets, il devient difficile de comprendre facilement leurs structures et de les
visualiser de mani`ere lisible. La recherche de groupes de sommets fortement li´es dans un
grand graphe et l’´etude des relations existant entre ces groupes est une approche permet-
tant de donner une repr´esentation simplifi´ee de la structure de grands graphes : une telle
repr´esentation est d’une grande utilit´e pour l’utilisateur, sociologue, biologiste, historien
..., car elle permet de pouvoir appr´ehender de mani`ere tr`es intuitive le r´eseau social ou
biologique mod´elis´e [8].
Pour ce faire, une solution consiste `a utiliser des m´ethodes de classification des sommets
d’un graphe (voir [11] pour une revue compl`ete des m´ethodes de classification de sommets
d’un graphe). Les classes, que l’on peut voir comme un graphe simplifi´e, sont ensuite
repr´esent´ees par des m´ethodes standards de visualisation de graphes [3]. Ici, nous nous
proposons de pr´esenter des approches plus directes, introduites dans [12, 2, 10].
De mani`ere plus pr´ecise, nous pr´esenterons deux types d’approche. La premi`ere est un
algorithme de cartes auto-organisatrices (cartes de Kohonen, [4]) adapt´e `a des donn´ees
non vectorielles par le biais de noyaux. Cette approche, qui n’est pas sp´ecifique `a la
classification de sommets de graphe, utilise un plongement implicite du graphe dans un
espace de Hilbert `a noyau reproduisant. Plusieurs versions de cet algorithme ont ´et´e
d´evelopp´ees [7, 1, 6, 13]. Dans [12], nous avons propos´e une version “batch” de cette
1