Détection de structures de communauté dans les hyper

Téléchargement

D´

etection de structures de communaut´

e dans

les hyper-r´

eseaux d’interactions

Cecile Bothorel†et Mohamed Bouklit‡

France Telecom R&D, 2 avenue Pierre Marzin 22307 Lannion

Dans cet article, nous nous int´

eressons au probl`

eme de la d´

etection de communaut´

es dans les hyper-r´

eseaux d’interac-

tions (complex hyper-networks) . Plus pr´

ecis´

ement, nous proposons une g´

en´

eralisation de l’algorithme de d´

etection de

communaut´

es de Girvan et Newman aux hyper-r´

eseaux d’interactions. Les r´

esultats exp´

erimentaux montrent que notre

algorithme donne des r´

esultats encourageants sur des hypergraphes de cooccurence de tags obtenus `

a partir du collectif

en ligne de partage de photos Flickr.

Keywords: algorithmique des (hyper-)r´

eseaux d’interactions, hypergraphes, d´

etection de communaut´

es, centralit´

e d’in-

term´

ediarit´

1 Introduction

L’utilisation des r´

eseaux d’interactions ne fournit pas toujours une description sufﬁsamment ﬁne de la

structure des syst`

emes complexes ´

etudi´

es. Ainsi, la repr´

esentation sous forme de graphe d’un r´

eseau de

collaboration scientiﬁque nous permet par exemple uniquement de savoir si deux chercheurs ont collabor´

En revanche, elle ne permet pas de savoir si plus de trois chercheurs (reli´

es dans le r´

eseau) ont co-´

ecrit

ensemble un article.

Estrada et Rodr´

ıguez-Vel´

asquez introduisent les hyper-r´

eseaux d’interactions (complex hyper-networks)

comme une g´

en´

eralisation naturelle des r´

eseaux d’interactions [ERV06]. Les hyper-r´

eseaux d’interactions

sont des hypergraphes rencontr´

es en pratique qui permettent de mod´

eliser la structure de certains syst`

emes

complexes de mani`

ere beaucoup plus pr´

ecise que les r´

eseaux d’interactions. Dans un graphe, une arˆ

ete relie

seulement un couple de sommets tandis que les arˆ

etes d’un hypergraphe connue sous le nom d’hyperarˆ

etes

peuvent relier des groupes de plusieurs sommets. Ainsi, on peut repr´

esenter notre r´

eseau de collaboration

scientiﬁque par un hypergraphe dont les noeuds sont les auteurs et dont les hyperarˆ

etes repr´

esentent les

groupes d’auteurs ayant co-´

ecrit des articles.

Estrada et Rodr´

ıguez-Vel´

asquez g´

en´

eralisent dans le mˆ

eme article le coefﬁcient de clustering introduit

par Watts et Strogatz [WS98] aux hyper-r´

eseaux d’interactions [ERV06]. [QZY07] propose une m´

ethode de

d´

etection de communaut´

es dans les hyper-r´

eseaux d’interactions qui comporte deux phases. Ils construisent

tout d’abord, `

a partir d’un r´

eseau d’interaction G, un hyper-r´

eseau d’interaction Hdont les hyperarˆ

etes cor-

respondent aux sous graphes maximaux denses§de G. Ils appliquent ensuite sur l’hyper-r´

eseau d’interaction

obtenu l’algorithme HMETIS [KAKS99] de partitionnement d’hypergraphes.

D´

eﬁnitions. Un hypergraphe est repr´

esent´

e par un couple H= (V,E)o`

uV={v1,···,vn}est l’ensemble

des noeuds et E={e1,···,em}est l’ensemble des hyperarˆ

etes telles que ei6=/

0et i=m

[

i=1ei=V[Ber85].

Une hyperarˆ

ete eiest un sous-ensemble de V. Deux noeuds sont adjacents dans H= (V,E)s’il existe

une hyperarˆ

ete eiqui les contient. Le taille d’une hyperarˆ

ete est le nombre de sommets qu’elle contient.

Dans la suite de l’article, Hd´

esignera un hypergraphe non-orient´

e, non-pond´

er´

e et connexe compos´

e de

†[email protected]

‡[email protected]

§leur densit´

e doit ˆ

etre sup´

erieure `

a un seuil ηﬁx´

e empiriquement

Cecile Bothorel et Mohamed Bouklit

n=|V|sommets et m=|E|hyperarˆ

etes. En raison de leur faible densit´

e en pratique, nous avons choisi

de repr´

esenter les hypergraphes sous la forme d’un graphe biparti reliant les sommets aux hyperarˆ

etes

(auxquelles ils appartiennent). La complexit´

e de cette repr´

esentation coˆ

ute O(m+n+k)espace (kd´

esignant

le nombre d’arˆ

etes de ce graphe biparti). Comme nous consid´

erons uniquement des hypergraphes connexes

(k≥m+n−1), on en d´

eduit une complexit´

e spatiale en O(k)espace.

Nous nous int´

eressons dans cet article au probl`

eme de la d´

etection de structure des communaut´

es dans

les hyper-r´

eseaux d’interactions. Notre algorithme g´

en´

eralise celui de Girvan et Newman [NG04]. Apr`

avoir d´

etaill´

e notre algorithme de detection de communaut´

es dans les hyper-r´

eseaux d’interactions, nous

pr´

esentons les r´

esultats sur des hypergraphes de cooccurence de tags obtenus `

a partir du collectif en ligne

de partage de photos Flickr [Fli].

2 Description de l’algorithme

2.1 Principe de l’algorithme

Notre algorithme g´

en´

eralise celui de Girvan et Newman aux hypergraphes [NG04]. Nous allons partir

de la partition de l’hypergraphe contenant une seule communaut´

e (correspondant `

a l’hypergraphe entier)

et scinder successivement les communaut´

es jusqu’`

a obtenir ncommunaut´

es contenant chacune un seul

sommet de la fac¸on suivante :

– Calculer la centralit´

e d’interm´

ediarit´

e de chaque sommet et de chaque

hyperarˆ

ete d´

ecrite en section 2.2 (complexit´

e : O(nk))

– Retirer l’hyperarˆ

ete de centralit´

e maximale (complexit´

e : O(k))

– Calculer une partition de l’hypergraphe en communaut´

es¶(complexit´

e : O(k))

– Calculer et m´

emoriser un param`

etre de qualit´

eQpr´

esent´

e en section 2.3 (complexit´

e : O(klogk))

Nous obtenons ainsi, apr`

es mit´

erations, une suite de mpartitions des sommets en communaut´

es P0, ...Pm−1

parmi lesquelles il va falloir choisir la meilleure (maximisant Q). La complexit´

e d’une it´

eration ´

etant en

O(nk+klogk)temps, il en d´

ecoule donc que la complexit´

e totale de l’algorithme est en O(m(nk+klogk))

temps dans le pire des cas.

2.2 Calcul de la centralit´

e d’interm´

ediarit´

La centralit´

e d’interm´

ediarit´

e d’un sommet ou d’une hyperarˆ

ete u(que l’on notera B(u)) est la proportion

de plus courts hyperchemins passant par u. Pour ce faire, adoptant une approche similaire `

a Girvan et

Newman, nous allons calculer pour chaque sommet et chaque hyperarˆ

ete de l’hypergraphe sa centralit´

d’interm´

ediarit´

e dite locale `

av. La centralit´

e d’interm´

ediarit´

e locale `

avd’un sommet ou d’une hyperarˆ

ete

u(que l’on notera Bv(u)) est la proportion de plus courts hyperchemins partant de vpassant par u. On en

d´

eduit que : B(u) = ∑

v∈VBv(u). Cela revient en fait `

a faire circuler un ﬂot ´

egal `

a 1 le long des hyperchemins

de u`

avpour tout sommet u. Les valeurs de ﬂots obtenues pour chaque sommet et chaque hyperarˆ

ete

correspondent aux centralit´

es locales recherch´

ees.

L’algorithme effectue donc nit´

erations correspondant au calcul de la centralit´

e d’interm´

ediarit´

e locale `

vde chaque sommet et de chaque hyperarˆ

ete de l’hypergraphe de la fac¸on suivante :

1. on calcule dans un premier temps, en O(k)temps, l’ensemble des plus courts hyperchemins partant

de v`

a l’aide d’un parcours en largeur modiﬁ´

e de l’hypergraphe H. La ﬁgure 1.b montre l’ensemble

des hyperchemins partant de adans l’hypergraphe repr´

esent´

a la ﬁgure 1.a. Plus pr´

ecis´

ement, on

associe `

a chaque sommet et `

a chaque hyperarˆ

ete de l’hypergraphe l’ensemble de ses pr´

ed´

ecesseurs

sur ces hyperchemins. On peut constater par exemple que l’hyperarˆ

ete Da pour pr´

ed´

ecesseurs cet d.

2. on calcule dans un second temps, en O(k)temps, les centralit´

es locales de chaque hyperarˆ

ete et de

chaque sommet qui sont respectivement initialis´

ees `

a 0 et `

a 1. Plus pr´

ecis´

ement, on traite l’ensemble

des sommets et des hyperarˆ

etes udans l’ordre inverse du parcours en largeur (f g D C e d c b B A a

dans notre cas repr´

esent´

a la ﬁgure 1.c) :

¶Les composantes connexes de l’hypergraphe ´

etant identiﬁ´

ees `

a des communaut´

es, il sufﬁt d’effectuer un calcul de composantes

connexes `

a l’aide d’un parcours en largeur.

D´

etection de structures de communaut´

e dans les hyper-r´

eseaux d’interactions

(a) la centralit´

e locale Bv(u)est tout d’abord ajout´

ee `

a la centralit´

e d’interm´

ediarit´

e globale B(u):

B(u)←B(u)+Bv(u). Lorsqu’on traite par exemple l’hyperarˆ

ete D, on ajoute sa centralit´

e locale

Ba(D)(qui n’augmentera plus dans la suite du parcours) `

a sa centralit´

e globale B(D).

(b) Bv(u)est ensuite distribu´

ee de mani`

ere ´

equitable entre ses predecesseurs w:Bv(w)←Bv(w) +

Bv(u)

nuo`

unud´

esigne le nombre de pr´

ed´

ecesseurs de u. L’hyperarˆ

ete Ddistribue par exemple sa

centralit´

e locale Ba(D) = 1´

equitablement entre ses pr´

ed´

ecesseurs cet dqui recevront donc

chacun 0.5.

Les ﬁgures 1.b et 1.c illustrent donc une it´

eration de l’algorithme. Apr`

es nit´

erations, nous obtenons

comme r´

esultat de l’algorithme les centralit´

es d’interm´

ediarit´

e globales pour tous les sommets et les hy-

perarˆ

etes de l’hypergraphe H. La complexit´

e de cet algorithme est donc en O(nk)temps.

a. un hypergraphe b. plus courts hyperchemins partant de ac. centralit´

e d’interm´

ediarit´

e locale `

FIG. 1: Calcul de la centralit´

e d’interm´

ediarit´

2.3 Evaluation de la qualit´

e d’une partition d’un hypergraphe en communaut´

Aﬁn d’´

evaluer la qualit´

e d’une partition Pd’un hypergraphe Hen communaut´

es, nous proposons

l’hypermodularit´

e Q(P):

Q(P) = ∑

C∈Phe(C)−t=n

∑

t=2at(C)ti (1)

ue(C)est la fraction des hyperarˆ

etes internes `

a la communaut´

e C et at(C)est la fraction des hyperarˆ

etes de

taille tayant au moins une extr´

emit´

e dans la communaut´

eC. Cette mesure de qualit´

e est une g´

en´

eralisation

de la modularit´

e introduite par Girvan et Newman dans leur algorithme de d´

etection de communaut´

es. Une

hyperarˆ

ete est dite interne `

a une communaut´

eCsi toutes ses extr´

emit´

es sont dans la communaut´

eC. Une

hyperarˆ

ete de taille test dite li´

ee `

a une communaut´

eCsi au moins l’une de ses textr´

emit´

es appartient `

a la

communaut´

eC. Ainsi, les hyperarˆ

etes de taille 4 ayant 2 extr´

emit´

es dans Ccomptent pour moiti´

e (2

4) par

rapport aux hyperarˆ

etes de taille 4 ayant toutes leurs extr´

emit´

es dans C.

L’objectif est d’avoir des communaut´

es de forte densit´

e interne mesur´

ee par e(C). Les grosses commu-

naut´

es ont cependant m´

ecaniquement une proportion d’arˆ

etes internes plus ´

elev´

ee : si C est un ensemble

al´

eatoire de sommets et si les hyperarˆ

etes sont aussi al´

eatoires alors la proportion d’hyperarˆ

etes de taille

tinternes attendue est at(C)t. Comme la modularit´

e, l’hypermodularit´

e compare la proportion effective

d’hyperarˆ

etes internes aux communaut´

es `

a la proportion attendue selon ce sch´

ema. Une communaut´

e est

d’autant plus pertinente que sa proportion d’hyperarˆ

etes internes sera sup´

erieure `

a sa proportion attendue

Cecile Bothorel et Mohamed Bouklit

d’hyperarˆ

etes. Nous retenons donc comme r´

esultat de notre algorithme la partition de l’hypergraphe H

poss´

edant la meilleure hypermodularit´

e. L’hypermodularit´

e est calculable en O(klogk)temps dans le pire.

3 R´

esultats

Nous avons appliqu´

e notre algorithme en particulier sur des hypergraphes de tags obtenus `

a partir du site

de partage de photos Flickr [Fli]. Les hypernoeuds repr´

esentent les tags. Les hyperarˆ

etes correspondent aux

ensembles de tags qui co-apparaissent fr´

equemment dans la description des photos (ﬁgure 2.a).

a. quelques hyperarˆ

etes b. communaut´

evacation c. nuage de tags de la communaut´

evacation

d. communaut´

esuzuki e. communaut´

ekatrina f. communaut´

ewedding

FIG. 2: Exemple de nuages de tags

Les tags afﬁch´

es sont les plus repr´

esentatifs des communaut´

es selon le crit`

ere de centralit´

e (ﬁgure 2.b).

Pour une repr´

esentation sous forme de nuage de tags (ﬁgures 2.c `

a 2.e), la police de chaque tag est propor-

tionnelle `

a sa centralit´

e d’interm´

ediarit´

e dans l’hypergraphe initial. Cette courte pr´

esentation ne permet pas

h´

elas de pr´

esenter les nombreuses am´

eliorations et optimisations que nous avons propos´

ees.

Remerciements. Nous souhaitons remercier le projet RNRT Autograph de nous avoir gracieusement fourni

leurs donn´

ees volumineuses.

R´

ef´

erences

[Ber85] Claude Berge. Graphs and Hypergraphs. Elsevier Science Ltd, 1985.

[ERV06] E. Estrada and J. A. Rodr´

ıguez-Vel´

azquez. Subgraph centrality and clustering in complex

hyper-networks. Physica A : Statistical Mechanics and its Applications, 364 :581–594, May

2006.

[Fli] Flickr. Collectif en ligne de partage de photos. http://www.flickr.com/.

[KAKS99] George Karypis, Rajat Aggarwal, Vipin Kumar, and Shashi Shekhar. Multilevel hypergraph

partitioning : applications in vlsi domain. IEEE Trans. VLSI Syst., 7 :69–79, 1999.

[NG04] M. E. J. Newman and M. Girvan. Finding and evaluating community structure in networks.

Physical Review, E 69(026113), 2004.

[QZY07] Rong Qian, Wei Zhang, and Bingru Yang. Community detection in scale-free networks based

on hypergraph model. Intelligence and Security Informatics, 4430/2007 :226–231, July 2007.

[WS98] D. J. Watts and S. H. Strogatz. Collective dynamics of ’small-world’ networks. Nature,

393 :440–442, June 1998.

1 / 4 100%

Documents connexes

AVIS D`APPEL PUBLIC A LA CONCURRENCE Organisme qui

Analyse des réseaux complexes pour la recommandation de

La méthode de Louvain générique : un algorithme adaptatif pour la

Texte 25 Une bonne alimentation

Invite tes grands-parents, tes parents et tes amis bien sûr! SOUPER

J`Observe (Notes)

Psaume 147

Exercice: Être, Avoir, Faire, Aller - Présent

Pépinières d`entreprises de Quimper

analytique - Metaltec Suisse

Document : Phase 3

Guide de vie pour TED au pays des neurotypiques

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Détection de structures de communauté dans les hyper

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Détection de structures de communauté dans les hyper

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib