D´
etection de structures de communaut´
e dans
les hyper-r´
eseaux d’interactions
Cecile Bothorelet Mohamed Bouklit
France Telecom R&D, 2 avenue Pierre Marzin 22307 Lannion
Dans cet article, nous nous int´
eressons au probl`
eme de la d´
etection de communaut´
es dans les hyper-r´
eseaux d’interac-
tions (complex hyper-networks) . Plus pr´
ecis´
ement, nous proposons une g´
en´
eralisation de l’algorithme de d´
etection de
communaut´
es de Girvan et Newman aux hyper-r´
eseaux d’interactions. Les r´
esultats exp´
erimentaux montrent que notre
algorithme donne des r´
esultats encourageants sur des hypergraphes de cooccurence de tags obtenus `
a partir du collectif
en ligne de partage de photos Flickr.
Keywords: algorithmique des (hyper-)r´
eseaux d’interactions, hypergraphes, d´
etection de communaut´
es, centralit´
e d’in-
term´
ediarit´
e
1 Introduction
L’utilisation des r´
eseaux d’interactions ne fournit pas toujours une description suffisamment fine de la
structure des syst`
emes complexes ´
etudi´
es. Ainsi, la repr´
esentation sous forme de graphe d’un r´
eseau de
collaboration scientifique nous permet par exemple uniquement de savoir si deux chercheurs ont collabor´
e.
En revanche, elle ne permet pas de savoir si plus de trois chercheurs (reli´
es dans le r´
eseau) ont co-´
ecrit
ensemble un article.
Estrada et Rodr´
ıguez-Vel´
asquez introduisent les hyper-r´
eseaux d’interactions (complex hyper-networks)
comme une g´
en´
eralisation naturelle des r´
eseaux d’interactions [ERV06]. Les hyper-r´
eseaux d’interactions
sont des hypergraphes rencontr´
es en pratique qui permettent de mod´
eliser la structure de certains syst`
emes
complexes de mani`
ere beaucoup plus pr´
ecise que les r´
eseaux d’interactions. Dans un graphe, une arˆ
ete relie
seulement un couple de sommets tandis que les arˆ
etes d’un hypergraphe connue sous le nom d’hyperarˆ
etes
peuvent relier des groupes de plusieurs sommets. Ainsi, on peut repr´
esenter notre r´
eseau de collaboration
scientifique par un hypergraphe dont les noeuds sont les auteurs et dont les hyperarˆ
etes repr´
esentent les
groupes d’auteurs ayant co-´
ecrit des articles.
Estrada et Rodr´
ıguez-Vel´
asquez g´
en´
eralisent dans le mˆ
eme article le coefficient de clustering introduit
par Watts et Strogatz [WS98] aux hyper-r´
eseaux d’interactions [ERV06]. [QZY07] propose une m´
ethode de
d´
etection de communaut´
es dans les hyper-r´
eseaux d’interactions qui comporte deux phases. Ils construisent
tout d’abord, `
a partir d’un r´
eseau d’interaction G, un hyper-r´
eseau d’interaction Hdont les hyperarˆ
etes cor-
respondent aux sous graphes maximaux denses§de G. Ils appliquent ensuite sur l’hyper-r´
eseau d’interaction
obtenu l’algorithme HMETIS [KAKS99] de partitionnement d’hypergraphes.
D´
efinitions. Un hypergraphe est repr´
esent´
e par un couple H= (V,E)o`
uV={v1,···,vn}est l’ensemble
des noeuds et E={e1,···,em}est l’ensemble des hyperarˆ
etes telles que ei6=/
0et i=m
[
i=1ei=V[Ber85].
Une hyperarˆ
ete eiest un sous-ensemble de V. Deux noeuds sont adjacents dans H= (V,E)s’il existe
une hyperarˆ
ete eiqui les contient. Le taille d’une hyperarˆ
ete est le nombre de sommets qu’elle contient.
Dans la suite de l’article, Hd´
esignera un hypergraphe non-orient´
e, non-pond´
er´
e et connexe compos´
e de
§leur densit´
e doit ˆ
etre sup´
erieure `
a un seuil ηfix´
e empiriquement
Cecile Bothorel et Mohamed Bouklit
n=|V|sommets et m=|E|hyperarˆ
etes. En raison de leur faible densit´
e en pratique, nous avons choisi
de repr´
esenter les hypergraphes sous la forme d’un graphe biparti reliant les sommets aux hyperarˆ
etes
(auxquelles ils appartiennent). La complexit´
e de cette repr´
esentation coˆ
ute O(m+n+k)espace (kd´
esignant
le nombre d’arˆ
etes de ce graphe biparti). Comme nous consid´
erons uniquement des hypergraphes connexes
(km+n1), on en d´
eduit une complexit´
e spatiale en O(k)espace.
Nous nous int´
eressons dans cet article au probl`
eme de la d´
etection de structure des communaut´
es dans
les hyper-r´
eseaux d’interactions. Notre algorithme g´
en´
eralise celui de Girvan et Newman [NG04]. Apr`
es
avoir d´
etaill´
e notre algorithme de detection de communaut´
es dans les hyper-r´
eseaux d’interactions, nous
pr´
esentons les r´
esultats sur des hypergraphes de cooccurence de tags obtenus `
a partir du collectif en ligne
de partage de photos Flickr [Fli].
2 Description de l’algorithme
2.1 Principe de l’algorithme
Notre algorithme g´
en´
eralise celui de Girvan et Newman aux hypergraphes [NG04]. Nous allons partir
de la partition de l’hypergraphe contenant une seule communaut´
e (correspondant `
a l’hypergraphe entier)
et scinder successivement les communaut´
es jusqu’`
a obtenir ncommunaut´
es contenant chacune un seul
sommet de la fac¸on suivante :
Calculer la centralit´
e d’interm´
ediarit´
e de chaque sommet et de chaque
hyperarˆ
ete d´
ecrite en section 2.2 (complexit´
e : O(nk))
Retirer l’hyperarˆ
ete de centralit´
e maximale (complexit´
e : O(k))
Calculer une partition de l’hypergraphe en communaut´
es(complexit´
e : O(k))
Calculer et m´
emoriser un param`
etre de qualit´
eQpr´
esent´
e en section 2.3 (complexit´
e : O(klogk))
Nous obtenons ainsi, apr`
es mit´
erations, une suite de mpartitions des sommets en communaut´
es P0, ...Pm1
parmi lesquelles il va falloir choisir la meilleure (maximisant Q). La complexit´
e d’une it´
eration ´
etant en
O(nk+klogk)temps, il en d´
ecoule donc que la complexit´
e totale de l’algorithme est en O(m(nk+klogk))
temps dans le pire des cas.
2.2 Calcul de la centralit´
e d’interm´
ediarit´
e
La centralit´
e d’interm´
ediarit´
e d’un sommet ou d’une hyperarˆ
ete u(que l’on notera B(u)) est la proportion
de plus courts hyperchemins passant par u. Pour ce faire, adoptant une approche similaire `
a Girvan et
Newman, nous allons calculer pour chaque sommet et chaque hyperarˆ
ete de l’hypergraphe sa centralit´
e
d’interm´
ediarit´
e dite locale `
av. La centralit´
e d’interm´
ediarit´
e locale `
avd’un sommet ou d’une hyperarˆ
ete
u(que l’on notera Bv(u)) est la proportion de plus courts hyperchemins partant de vpassant par u. On en
d´
eduit que : B(u) =
vVBv(u). Cela revient en fait `
a faire circuler un flot ´
egal `
a 1 le long des hyperchemins
de u`
avpour tout sommet u. Les valeurs de flots obtenues pour chaque sommet et chaque hyperarˆ
ete
correspondent aux centralit´
es locales recherch´
ees.
L’algorithme effectue donc nit´
erations correspondant au calcul de la centralit´
e d’interm´
ediarit´
e locale `
a
vde chaque sommet et de chaque hyperarˆ
ete de l’hypergraphe de la fac¸on suivante :
1. on calcule dans un premier temps, en O(k)temps, l’ensemble des plus courts hyperchemins partant
de v`
a l’aide d’un parcours en largeur modifi´
e de l’hypergraphe H. La figure 1.b montre l’ensemble
des hyperchemins partant de adans l’hypergraphe repr´
esent´
e`
a la figure 1.a. Plus pr´
ecis´
ement, on
associe `
a chaque sommet et `
a chaque hyperarˆ
ete de l’hypergraphe l’ensemble de ses pr´
ed´
ecesseurs
sur ces hyperchemins. On peut constater par exemple que l’hyperarˆ
ete Da pour pr´
ed´
ecesseurs cet d.
2. on calcule dans un second temps, en O(k)temps, les centralit´
es locales de chaque hyperarˆ
ete et de
chaque sommet qui sont respectivement initialis´
ees `
a 0 et `
a 1. Plus pr´
ecis´
ement, on traite l’ensemble
des sommets et des hyperarˆ
etes udans l’ordre inverse du parcours en largeur (f g D C e d c b B A a
dans notre cas repr´
esent´
e`
a la figure 1.c) :
Les composantes connexes de l’hypergraphe ´
etant identifi´
ees `
a des communaut´
es, il suffit d’effectuer un calcul de composantes
connexes `
a l’aide d’un parcours en largeur.
D´
etection de structures de communaut´
e dans les hyper-r´
eseaux d’interactions
(a) la centralit´
e locale Bv(u)est tout d’abord ajout´
ee `
a la centralit´
e d’interm´
ediarit´
e globale B(u):
B(u)B(u)+Bv(u). Lorsqu’on traite par exemple l’hyperarˆ
ete D, on ajoute sa centralit´
e locale
Ba(D)(qui n’augmentera plus dans la suite du parcours) `
a sa centralit´
e globale B(D).
(b) Bv(u)est ensuite distribu´
ee de mani`
ere ´
equitable entre ses predecesseurs w:Bv(w)Bv(w) +
Bv(u)
nuo`
unud´
esigne le nombre de pr´
ed´
ecesseurs de u. L’hyperarˆ
ete Ddistribue par exemple sa
centralit´
e locale Ba(D) = 1´
equitablement entre ses pr´
ed´
ecesseurs cet dqui recevront donc
chacun 0.5.
Les figures 1.b et 1.c illustrent donc une it´
eration de l’algorithme. Apr`
es nit´
erations, nous obtenons
comme r´
esultat de l’algorithme les centralit´
es d’interm´
ediarit´
e globales pour tous les sommets et les hy-
perarˆ
etes de l’hypergraphe H. La complexit´
e de cet algorithme est donc en O(nk)temps.
a. un hypergraphe b. plus courts hyperchemins partant de ac. centralit´
e d’interm´
ediarit´
e locale `
aa
FIG. 1: Calcul de la centralit´
e d’interm´
ediarit´
e
2.3 Evaluation de la qualit´
e d’une partition d’un hypergraphe en communaut´
es
Afin d’´
evaluer la qualit´
e d’une partition Pd’un hypergraphe Hen communaut´
es, nous proposons
l’hypermodularit´
e Q(P):
Q(P) =
CPhe(C)t=n
t=2at(C)ti (1)
o`
ue(C)est la fraction des hyperarˆ
etes internes `
a la communaut´
e C et at(C)est la fraction des hyperarˆ
etes de
taille tayant au moins une extr´
emit´
e dans la communaut´
eC. Cette mesure de qualit´
e est une g´
en´
eralisation
de la modularit´
e introduite par Girvan et Newman dans leur algorithme de d´
etection de communaut´
es. Une
hyperarˆ
ete est dite interne `
a une communaut´
eCsi toutes ses extr´
emit´
es sont dans la communaut´
eC. Une
hyperarˆ
ete de taille test dite li´
ee `
a une communaut´
eCsi au moins l’une de ses textr´
emit´
es appartient `
a la
communaut´
eC. Ainsi, les hyperarˆ
etes de taille 4 ayant 2 extr´
emit´
es dans Ccomptent pour moiti´
e (2
4) par
rapport aux hyperarˆ
etes de taille 4 ayant toutes leurs extr´
emit´
es dans C.
L’objectif est d’avoir des communaut´
es de forte densit´
e interne mesur´
ee par e(C). Les grosses commu-
naut´
es ont cependant m´
ecaniquement une proportion d’arˆ
etes internes plus ´
elev´
ee : si C est un ensemble
al´
eatoire de sommets et si les hyperarˆ
etes sont aussi al´
eatoires alors la proportion d’hyperarˆ
etes de taille
tinternes attendue est at(C)t. Comme la modularit´
e, l’hypermodularit´
e compare la proportion effective
d’hyperarˆ
etes internes aux communaut´
es `
a la proportion attendue selon ce sch´
ema. Une communaut´
e est
d’autant plus pertinente que sa proportion d’hyperarˆ
etes internes sera sup´
erieure `
a sa proportion attendue
Cecile Bothorel et Mohamed Bouklit
d’hyperarˆ
etes. Nous retenons donc comme r´
esultat de notre algorithme la partition de l’hypergraphe H
poss´
edant la meilleure hypermodularit´
e. L’hypermodularit´
e est calculable en O(klogk)temps dans le pire.
3 R´
esultats
Nous avons appliqu´
e notre algorithme en particulier sur des hypergraphes de tags obtenus `
a partir du site
de partage de photos Flickr [Fli]. Les hypernoeuds repr´
esentent les tags. Les hyperarˆ
etes correspondent aux
ensembles de tags qui co-apparaissent fr´
equemment dans la description des photos (figure 2.a).
a. quelques hyperarˆ
etes b. communaut´
evacation c. nuage de tags de la communaut´
evacation
d. communaut´
esuzuki e. communaut´
ekatrina f. communaut´
ewedding
FIG. 2: Exemple de nuages de tags
Les tags affich´
es sont les plus repr´
esentatifs des communaut´
es selon le crit`
ere de centralit´
e (figure 2.b).
Pour une repr´
esentation sous forme de nuage de tags (figures 2.c `
a 2.e), la police de chaque tag est propor-
tionnelle `
a sa centralit´
e d’interm´
ediarit´
e dans l’hypergraphe initial. Cette courte pr´
esentation ne permet pas
h´
elas de pr´
esenter les nombreuses am´
eliorations et optimisations que nous avons propos´
ees.
Remerciements. Nous souhaitons remercier le projet RNRT Autograph de nous avoir gracieusement fourni
leurs donn´
ees volumineuses.
R´
ef´
erences
[Ber85] Claude Berge. Graphs and Hypergraphs. Elsevier Science Ltd, 1985.
[ERV06] E. Estrada and J. A. Rodr´
ıguez-Vel´
azquez. Subgraph centrality and clustering in complex
hyper-networks. Physica A : Statistical Mechanics and its Applications, 364 :581–594, May
2006.
[Fli] Flickr. Collectif en ligne de partage de photos. http://www.flickr.com/.
[KAKS99] George Karypis, Rajat Aggarwal, Vipin Kumar, and Shashi Shekhar. Multilevel hypergraph
partitioning : applications in vlsi domain. IEEE Trans. VLSI Syst., 7 :69–79, 1999.
[NG04] M. E. J. Newman and M. Girvan. Finding and evaluating community structure in networks.
Physical Review, E 69(026113), 2004.
[QZY07] Rong Qian, Wei Zhang, and Bingru Yang. Community detection in scale-free networks based
on hypergraph model. Intelligence and Security Informatics, 4430/2007 :226–231, July 2007.
[WS98] D. J. Watts and S. H. Strogatz. Collective dynamics of ’small-world’ networks. Nature,
393 :440–442, June 1998.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !