Regroupement de mots en groupes non

Téléchargement

Regroupement de mots en groupes non-disjoints pour la

classiﬁcation de documents

Guillaume Cleuziou

LIFO - Universit´

e d’Orl´

eans

BP 6759 - 45067 Orl´

eans cedex 02 - France

[email protected]v-orleans.fr

R´

esum´

e : Cet article traite du probl`

eme de r´

eduction

de dimension de l’espace de description pour la classi-

ﬁcation de documents. Ce domaine d’´

etude est domin´

par trois principales approches de r´

eduction : la s´

election

des attributs `

a l’aide de mesures de gain d’information,

le re-param´

etrage de l’espace par des techniques telles

que LSI (Latente Semantic Indexing) et, plus r´

ecemment,

le regroupement d’attributs par l’utilisation d’un algo-

rithme de clustering adapt´

e. Nous nous int´

eressons ici

a cette derni`

ere approche et ´

etudions l’int´

erˆ

et d’int´

egrer

une m´

ethode de regroupement autorisant les recouvre-

ments entre classes plutˆ

ot qu’un algorithme constituant

des classes disjointes.

Dans cet article l’algorithme DDOC (Distributional Di-

visive Overlapping Clustering) permettant de g´

en´

erer des

classes non-disjointes de mots est pr´

esent´

e puis compar´

aux deux approches suivantes : Agglomerative Distri-

butional Clustering (ADC) [Baker and McCallum, 1998]

et Information Theoretic Divisive Clustering (ITDC)

[Dhillon et al., 2003]. Globalement, on observe que les

recouvrements permettent d’am´

eliorer la qualit´

e des nou-

veaux attributs par rapport aux classes disjointes, les

exp´

erimentations effectu´

ees sur les corpus 20Newsgroup

et Reuters-21578 conduisent `

a des r´

esultats encoura-

geants.

Mots-cl´

es : Regroupement d’attributs, classiﬁcation

de documents, regroupement de mots, clustering non-

disjoint, apprentissage.

1 INTRODUCTION

La classiﬁcation automatique de documents est un

probl`

eme important, `

a l’intersection de deux domaines

de recherche majeurs : l’Apprentissage Automatique

(AA) et la Recherche d’Information (RI). Etant donn ´

un mod`

ele de classiﬁcation, le probl`

eme consiste `

a ap-

prendre les param`

etres de ce mod`

ele, `

a partir des obser-

vations issues d’un corpus d’entraˆ

ınement, constitu´

e de

documents ´

etiquet´

es (document, classe). Ce mod`

ele, pa-

ram´

etr´

e, permet alors de pr´

edire la classe d’appartenance

d’un nouveau document test. La tˆ

ache de classiﬁcation de

documents est donc un probl`

eme d’apprentissage super-

vis´

e trouvant ses principales applications en RI : le rou-

tage d’information en temps-r´

eel (emails, notes de ser-

vice, etc.), le ﬁltrage d’information (spams, etc.) ainsi que

l’identiﬁcation de classes s´

emantiques, aﬁn d’int´

egrer

une dimension th´

ematique au processus de RI.

La tˆ

ache de classiﬁcation automatique de documents

se d´

ecompose en trois ´

etapes : (1) l’extraction d’at-

tributs pertinents, (2) la phase d’apprentissage `

a partir

d’un corpus d’entraˆ

ınement et (3) l’´

evaluation du clas-

siﬁeur sur un corpus test. Ces trois ´

etapes constituent

chacune un sous-domaine de recherche `

a part enti`

ere

[Aas and Eikvil, 1999]. La phase d’apprentissage (2) est

g´

en´

eralement assur´

ee par des algorithmes de classiﬁ-

cation tels que le classiﬁeur na¨

ıf de Bayes ou encore

les Machines `

a Supports Vectoriels (SVM). La phase

d’´

evaluation (3) n´

ecessite le recours aux mesures de per-

formance telles que la pr´

ecision, le rappel, le Break-even

point ou encore la F-measure. Notre ´

etude se concentre

sur le probl`

eme de l’extraction d’attributs pertinents (1),

etape initiale et d´

eterminante pour l’ensemble du proces-

sus de classiﬁcation.

L’extraction d’attributs consiste `

a rechercher un nou-

vel ensemble d’attributs (aussi appel´

es variables, traits

ou descripteurs) d´

eriv´

e de la description initiale des

donn´

ees, et conservant un maximum d’information sur

ces donn´

ees. Dans le contexte de la classiﬁcation, les do-

cuments sont g´

en´

eralement assimil´

es `

a des “sacs de mots”

de telle sorte que le vocabulaire apparaissant dans le cor-

pus d’entraˆ

ınement constitue l’ensemble initial d’attri-

buts (1 mot = 1 attribut). La taille de l’espace de descrip-

tion est alors tr`

es importante et donc limitative (en terme

de complexit´

e) pour l’utilisation de techniques de classi-

ﬁcation classiques telles que le classiﬁeur na¨

ıf de Bayes,

les approches SVM ou encore les arbres de d´

ecision. De

plus, beaucoup de mots composant ce vocabulaire sont

peu discriminants et peu pertinents, ajoutons `

a cela le fait

que la matrice documents ×mots est tr`

es ´

eparse (beau-

coup de 0). Par cons´

equent, le probl`

eme d’extraction d’at-

tributs pertinents pour la classiﬁcation de documents est

fortement li´

a la n´

ecessit´

e de r´

eduire la dimension et

d’am´

eliorer la pertinence de l’espace de description des

documents. Trois solutions ont ´

et´

e propos´

ees jusqu’alors :

la s´

election, le re-param´

etrage et le regroupement des at-

tributs.

L’approche par s´

election consiste `

a d´

eﬁnir un ensemble

d’attributs permettant de conserver un maximum d’infor-

mation relativement `

a la description initiale des donn´

ees.

Diff´

erentes m´

ethodes de s´

election ont ´

et´

e propos´

ees et

compar´

ees parmi lesquelles on peut citer le Gain d’In-

formation, l’Information Mutuelle ou encore la mesure

du χ2(voir [Forman, 2003] pour une ´

etude compara-

tive). Ces mesures reposent, g´

en´

eralement, sur l’´

etude des

d´

ependances conditionnelles entre les attributs (mots) et

les classes.

Le re-param´

etrage de l’espace des attributs consiste,

en revanche, `

a d´

eﬁnir un nouvel ensemble d’attributs,

chaque nouvel attribut ´

etant construit par combinaison

lin´

eaire des attributs initiaux. Cette m´

ethode est mieux

connue sous le nom de Latente Semantic Indexing (LSI)

[Deerwester et al., 1990, Roche and Kodratoff, 2003]

dans le cadre de l’application `

a la classiﬁcation de

documents. L’ensemble des attributs initiaux est utilis´

la r´

eduction de l’espace s’op`

ere alors par ´

elimination

des dimensions peu pertinentes (analyse en compo-

santes principales ACP). Dans la plupart des ´

etudes

comparatives, cette approche de r´

eduction induit des

taux de bonnes classiﬁcation meilleurs que la s´

election

d’attributs.

Enﬁn, une technique de r´

eduction plus r´

ecente,

puisque introduite en 1998 par Baker et McCallum

[Baker and McCallum, 1998], consiste `

a regrouper les

attributs mots, aﬁn d’indexer les documents `

a partir de

groupes de mots. Il s’agit alors de construire une partition

du vocabulaire, maximisant l’information conserv´

ee.

Dans cette application, deux techniques de partitionne-

ment se d´

egagent : l’algorithme ADC (Agglomerative

Distributional Clustering) [Baker and McCallum, 1998],

bas´

e sur un formalisme distributionnel initi´

e par

[Pereira et al., 1993], et ITDC (Information Theoretic

Divisive Clustering) [Dhillon et al., 2003]. Le regroupe-

ment d’attributs semble aujourd’hui ˆ

etre une m´

ethode

de r´

eduction prometteuse, conduisant `

a une meilleure

indexation des documents que les approches pr´

ec´

edentes

de s´

election ou de re-param´

etrage.

L’approche de r´

eduction par re-param´

etrage peut

egalement ˆ

etre interpr´

et´

ee dans ce contexte, comme

une m´

ethode de partitionnement ﬂou. Par exemple, la

m´

ethode LSI aboutie `

a un ensemble d’attributs tels que

chaque nouvel attribut est une combinaison lin´

eaire des

attributs de d´

epart. En ce sens, ces nouveaux attributs

peuvent donc ˆ

etre consid´

er´

es comme des clusters “ﬂous”

d´

eﬁnis par un ensemble pond´

er´

e de mots. Dans cet article,

nous postulons qu’un compromis entre ces deux derni`

eres

techniques (partitionnement “stricte” et “ﬂou”) pourrait

conduire `

a des attributs de meilleure qualit´

e. L’algorithme

DDOC (Distributional Divisive Overlapping Clustering)

permet de constituer des groupes non-disjoints de mots,

tels que chaque mot peut appartenir `

a un ou plusieurs

clusters (pseudo-partition). Ce type de sch´

ema est mo-

tiv´

e par une vision s´

emantique des relations (complexes

et ambig¨

ues) existant entre les termes.

L’article est organis´

e comme suit. La prochaine sec-

tion est d´

edi´

ee aux notions cl´

es concernant le classi-

ﬁeur na¨

ıf de Bayes ainsi qu’aux approches existantes,

pour la r´

eduction de l’espace par regroupement de

mots. La partie 3 pr´

esente les motivations de l’ap-

proche par regroupement non-disjoint ainsi que le mod`

ele

probabiliste g´

en´

eral de la m´

ethode. Les parties 4 et

5 traitent succ´

essivement de l’algorithme DDOC puis

des exp´

erimentations effectu´

ees sur les corpus traditio-

nels : 20Newsgroup et Reuters-21578. Enﬁn, un bilan de

l’´

etude est propos´

e avant de conclure et de pr´

esenter les

perspectives de ce travail.

2 CLASSIFICATION DE DOCUMENTS ET RE-

GROUPEMENT D’ATTRIBUTS

Le processus de regroupement d’attributs, pour

l’indexation des documents, a ´

et´

e initi´

e par Ba-

ker et McCallum [Baker and McCallum, 1998].

Ils proposent une approche bas´

ee sur une ana-

lyse distributionelle des mots apparaissant dans le

corpus d’entraˆ

ınement [Pereira et al., 1993]. Plu-

sieurs autres approches, fortement inspir´

ees de cette

etude pr´

eliminaire, ont ´

et´

e propos´

ees par la suite

[Slonim and Tishby, 2000, Dhillon et al., 2003]. Dans

cette section, nous pr´

esentons d’abord le classiﬁeur

na¨

ıf de Bayes dans le cadre de la classiﬁcation de

documents, puis nous comparons deux algorithmes de

regroupements de mots : Agglomerative Distributio-

nal Clustering (ADC) [Baker and McCallum, 1998]

et Information-Theoretic Divisive Clustering (ITDC)

[Dhillon et al., 2003].

Nous utiliserons les notations suivantes : le corpus d’en-

traˆ

ınement est not´

eD={d1, . . . , dn}, le vocabulaire

extrait de Dest not´

eV={w1,...,wl}et C=

{c1,...,cm}correspond aux ´

etiquettes de classes des do-

cuments.

2.1 Le classiﬁeur na¨

ıf de Bayes pour la classiﬁcation

de documents

Le classiﬁeur na¨

ıf de Bayes est connu pour ses perfor-

mances en classiﬁcation automatique de documents. Il

s’agit d’apprendre, pour chaque classe, un mod`

ele de

g´

en´

eration des documents de la classe. Ces mod`

eles sont

d´

eﬁnis par les distributions p(di|cj;θ)exprimant le pro-

babilit´

ea priori que le document disoit g´

en´

er´

e par la

classe cj(1). Dans cette d´

eﬁnition, θcorrespond aux pa-

ram`

etres `

a´

estimer `

a partir d’un corpus d’entraˆ

ınement.

p(di|cj;θ) = p(|di|)Y

{wt∈di}

p(wt|cj;θ)(1)

Cette expression est obtenue sous l’hypoth`

ese “na¨

ıve”

d’ind´

ependance entre les mots (notament sur l’ordre

d’apparition des mots). On sait que cette hypoth`

ese

n’est pas v´

eriﬁ´

ee, cependant les ´

etudes pr´

ec´

edentes

montrent, qu’en pratique, les performances du classi-

ﬁeur na¨

ıf de Bayes pour la classiﬁcation de documents

restent bonnes sous cette hypoth`

ese d’ind´

ependance

[Domingos and Pazzani, 1996]. Dans l’´

equation (1),

p(wt|cj;θ)est estim´

ee sur le corpus d’entraˆ

ınement via

la r`

egle de succession de Laplace (2), avec N(wt, di)

d´

esignant le nombre d’occurrences du mots wtdans le

document di:

p(wt|cj;θ)≈

1 + X

{di∈cj}

N(wt, di)

l+X

{ws∈V}X

{di∈cj}

N(ws, di)(2)

Pour classer un nouveau document d, on observe la pro-

babilit´

ea priori p(cj|d;θ). Ainsi, la classe pr´

edite pour

le document dsera celle qui maximize cette probabilit´

calcul´

ee par la r`

egle de Bayes (3) :

p(cj|d;θ) = p(cj|θ)p(d|cj;θ)

p(d|θ)(3)

Par ´

etapes succ´

essives de transformations et simpliﬁca-

tions math´

ematiques1sur l’´

equation (3), le classiﬁeur de

Bayes peut ˆ

etre reformul´

e ainsi :

c∗(d) = arg max

{cj∈C}

log p(cj|θ)

|d|

{wt∈V}

p(wt|d) log p(wt|cj;θ)(4)

Dans cette derni`

ere ´

equation, p(cj|θ)est donn´

ee par le

rapport du nombre de documents de ´

etiquet´

es cjdans D

sur le nombre total de documents dans D.

Dans le cadre du regroupement de mots, on note W=

{W1,...,Wp}le r´

esultat d’un partitionnement du voca-

bulaire V, tel que chaque cluster Wiest un sous ensemble

de Vet l’union de tous les clusters de West ´

egale `

aV.

Aﬁn de d´

ecrire les documents par des groupes de mots,

plutˆ

ot que par des mots, les equations (1) et (4) doivent

etre modiﬁ´

ees en remplac¸ant wpar W. Les expressions

p(Ws|cj;θ)et p(Ws|d)sont d´

eﬁnies par les ´

equations

suivantes, dans le cas classique d’un regroupement en

classes disjointes (on dit aussi que West une partition

stricte de V) :











p(Ws|cj;θ) = X

{di∈cj}

N(Ws, di)

{Wk∈W} X

{di∈cj}

N(Wk, di)

p(Ws|d) = N(Ws,d)

|d|

(5)

uN(Wk, d) = P{wt∈Wk}n(wt, d). Dans notre ´

etude

ce mod`

ele doit ˆ

etre adapt´

e au cas de classes non-

disjointes (on parle aussi de pseudo-partition). Nous

pr´

esenterons ce formalisme d’adaptation en section 3.

2.2 L’algorithme de clustering ADC

L’algorithme ADC (Agglomerative Distributional Clus-

tering) a ´

et´

e propos´

e en 1998 par Baker et McCallum

[Baker and McCallum, 1998]. Ce travail est bas´

e sur la

1Pour plus de d´

etails, voir [Dhillon et al., 2003]

- Ordonner Vvia l’information mutuelle avec la variable

de classe : I(w;C)(cf. eq.9)

- Initialiser kclusters : ksingletons correspondant aux k

premiers mots de Vsuivant l’ordre ´

etabli

- Tant que tous les mots de Vne sont pas int´

egr´

es :

- Fusionner les deux clusters les plus similaires

(k−1clusters restant),

- G´

en´

erer un nouveau cluster (singleton constitu´

e du

mot suivant dans Vordonn´

e).

TAB. 1 – L’algorithme de clustering ADC

th´

eorie distributionnelle initi´

ee en 1993 par Pereira et al.

[Pereira et al., 1993]. Chaque mot wtde Vest caract´

eris´

par deux composantes : la distribution du mot sur les

classes {p(cj|wt)}j=1...m et la probabilit´

e d’apparition

du mot p(wt). Ces descriptions sont apprises `

a partir du

corpus d’entraˆ

ınement.

p(cj|wt) = X

{di∈cj}

δ(wt, di)

{di∈D}

δ(wt, di)(6)

uδ(wt, di)vaut 1si wtest pr´

esent dans diet 0sinon.

L’objectif est de regrouper ensemble les mots jouant des

rˆ

oles similaires dans classiﬁcation des documents. Une

mesure adapt´

ee doit ˆ

etre utilis´

ee aﬁn d’´

evaluer la proxi-

mit´

e entre deux mots. La divergence de Kullback-Leibler

(KL), permet de comparer deux distributions :

D(p(C|wt)||p(C|ws)) =

j=1

p(cj|wt) log p(cj|wt)

p(cj|ws)(7)

Cependant cette mesure n’est pas sym´

etrique et n’est pas

d´

eﬁnie dans le cas o`

up(cj|ws)vaut 0. En pratique on

utilise plutˆ

ot la “divergence de KL `

a la moyenne” :

d(wt, ws) = πt.D(p(C|wt)||p(C|wt∨ws))

+πs.D(p(C|ws)||p(C|wt∨ws)) (8)

Dans l’´

equation (8), p(C|wt∨ws)est d´

eﬁnie par

πt

πt+πs

p(C|wt) + πs

πt+πs

p(C|ws)

uπt=p(wt).

L’algorithme de clustering, pr´

esent´

e dans le tableau

TAB.1, proc`

ede par fusions succ´

essives des deux plus

proches clusters, en utilisant la mesure de proximit´

d´

eﬁnie pr´

ec´

edemment (8).

Cet algorithme est incr´

emental, il est donc adapt´

e au

traitement d’ensembles importants de donn´

ees, avec une

complexit´

e en O(lk2m)avec l,ket mcorrespondant res-

pectivement au nombre de mots, clusters et classes.

2.3 L’algorithme de clustering ITDC

L’algorithme ITDC (Information Theoretic Divisive

Clustering), pr´

esent´

e dans [Dhillon et al., 2003], est bas´

sur l’optimisation d’un crit`

ere global d’information

mutuelle, inspir´

e de la m´

ethode Information Bottle-

neck [Slonim and Tishby, 2000]. Soient Cla variable de

classe, Vle vocabulaire et Wune partition stricte de V,

l’information perdue par le passage de V`

aW, comme

descripteurs des documents, peut ˆ

etre ´

evalu´

ee par la

diff´

erence I(C;V)−I(C;W). L’information mutuelle

entre deux variables al´

eatoires Xet Yest d´

eﬁnie par :

I(X;Y) = X

x∈X,y∈Y

p(x)p(y|x) log p(y|x)

p(y)(9)

Le tableau TAB.2 pr´

esente l’algorithme ITDC. Cette

m´

ethode de regroupement proc`

ede de fac¸on comparable

a l’algorithme bien connu des k-moyennes : `

a partir

d’une partition initiale, les objets sont it´

erativement r´

affect´

es de fac¸on `

a optimiser un crit`

ere de qualit´

e. Ici,

ce crit`

ere correspond `

a la fonction pr´

ec´

edemment d´

eﬁnie

(I(C;V)−I(C;W)) et la phase d’initialisation consiste `

construire des clusters “typiques” des classes cibles avant

de les fusionner ou de les scinder aﬁn d’obtenir le nombre

d´

esir´

e de groupes. La partition ﬁnale correspond donc `

un optimum local pour la fonction de qualit´

e. La com-

plexit´

e de l’algorithme ITDC est en O(lkmτ)avec l,k,

met τcorrespondant respectivement au nombre de mots,

clusters, classes et it´

erations.

Entr´

ee : le nombre d´

esir´

e de clusters ket V, le vocabulaire

a traiter.

- Initialisation : mclusters (pour mclasses) tels que

Wi={wt∈V|ci= arg max

p(cj|wt)}

- si k > m : scinder arbitrairement chaque cluster en

bk/mcclusters (partie enti`

ere),

- si k < m : fusionner les clusters jusqu’`

a en obtenir k

- Tant que la variation de la fonction de qualit´

I(C, V )−I(C, W)est > ε (ﬁx´

e),

- pour chaque cluster Wj, calculer p(Wj)et p(C|Wj),

- pour chaque mot wt∈V, rechercher son plus proche

cluster : j∗(wt) = arg min

D(p(C|wt)||p(C|Wi))

puis r´

e-affecter wtau cluster Wj∗

- calculer l’information mutuelle I(C;W)avec

les nouveaux clusters

Sortie : le partitionnement stricte Wde Ven kclusters.

TAB. 2 – L’algorithme de clustering ITDC

3 PSEUDO-PARTITIONNEMENT : MOTIVA-

TIONS ET CADRE PROBABILISTE

Consid´

erons un corpus d’entraˆ

ınement o`

u chaque docu-

ment est ´

etiquet´

e par l’une des deux classes : Aou B.

Supposons que le vocabulaire V, extrait de ce corpus,

s’organise en deux sous-ensembles W1et W2, plus un

mot wstels que :

–∀wi∈W1, p(cA|wi)≈1et p(cB|wi)≈0,

–∀wi∈W2, p(cB|wi)≈0et p(cB|wi)≈1,

–p(cA|ws)≈p(cB|ws)≈1

Autrement dit, les mots de W1apparaisent quasi-

exclusivement dans les documents de classe A, les mots

de W2quasi-exclusivement dans les documents de classe

B, tandis que le mot wsapparaˆ

ıt ´

equitablement dans les

deux classes de documents Aet B.

Un partitionnement stricte de V, conduira vraissembla-

blement `

a l’un des deux sch´

emas suivants : P1={W1∪

{ws}, W2}ou P2={W1, W2∪ {ws}}.

Supposons `

a pr´

esent que l’on cherche `

a classer un nou-

veau document d, caract´

eris´

e par la pr´

esence de wsuni-

quement, parmi les mots de V.

La caract´

erisation d’un groupe de mot W⊂Vest d´

eriv´

de la caract´

erisation des mots qui le composent par :







p(W) = Pwt∈Wp(wt)

p(cj|W) = Pwt∈W

p(wt)

p(W)p(cj|wt)

(10)

Si la partition P1a´

et´

e´

etablie, on a p(cj|d) = p(cj|W1∪

ws). Par le syst`

eme d’´

equations (10) et les hypoth`

eses de

distributions des mots sur les classes, on en d´

eduit que

p(cA|d)p(cB|d)d’o`

u l’affectation de d`

a la classe

A. En revanche, si c’est la partition P2qui est ´

etablie, le

document dsera class´

e dans B.

En g´

en´

eralisant cet exemple, si beaucoup de mots “am-

bigus” apparaissent dans un document test, le biais in-

duit par un partitionnement strict du vocabulaire peut en-

traˆ

ıner une perte d’information importante dans l’indexa-

tion des documents et ainsi produire des erreurs de clas-

siﬁcation en cons´

equence.

Ce ph´

enom`

ene peut s’expliquer ´

egalement dans un cadre

s´

emantique. Par exemple, si l’on consid`

ere que les deux

classes Aet Bcorrespondent `

a des documents por-

tant sur les th´

ematiques respectives de la “justice” et de

la “gastronomie”. Ces deux th´

ematiques semblent bien

diff´

erentes puisqu’elles poss`

edent chacune leur propre

terminologie. Supposons alors que les deux ensembles de

mots suivants ont ´

et´

e extraits du corpus d’entraˆ

ınement :

W1={Court Suprˆ

eme, Magistrat, Citoyen, Avocat,

... }et W2={Restaurant, Salade, Asperge, Avocat,

...}. Le mot ws=“avocat” est polys´

emique et appartient

aussi bien `

a la th´

ematique de la “justice”2qu’`

a celle de

la “gastronomie”3. Dans la construction d’une partition

stricte du vocabulaire extrait, wssera inclu dans l’un des

2Par exemple Le r´

equisitoire de l’avocat ´

etait brillant.

3Par exemple Ce restaurant propose une d´

elicieuse salade d’avo-

cats.

deux groupes W1ou W2exclusivement, ce qui revient

a conserver l’un des deux sens observ´

es de ce mots et `

ignorer le second.

L’exemple pr´

ec´

edent traite d’une situation extrˆ

eme. Ce-

pendant on peut facilement constater que beaucoup de

termes sont partag´

es par plusieurs documents, dans des

contextes s´

emantiques distincts, avec diff´

erents degr´

d’implication.

Dans cette ´

etude nous proposons de supprimer la

contrainte li´

ee `

a la construction de partitions strictes,

en utilisant un algorithme de clustering autorisant les

recouvrements entre les clusters. Les clusters obtenus

forment alors ce que l’on appelle une pseudo-partition

de l’ensemble des objets. Ces intersections entre clusters

n´

ecessitent une adaptation du mod`

ele probabiliste d´

eﬁni

jusqu’alors. Le syst`

eme propos´

e en (10) se red´

eﬁni par :







p(W) = P{wt∈V}p(W|wt)p(wt)

p(c|W) = 1

p(W)P{wt∈V}p(W|wt)p(wt)p(c|wt).

(11)

Dans (11), le terme p(W|wt)correspond au degr´

es d’im-

plication du mot wtdans le cluster W. Dans le cas d’un

partitionnement stricte, chaque objet appartient `

a un seul

cluster, p(W|wt)peut alors s’´

ecrire :

p(W|wt) = 1si wt∈W

0sinon. (12)

Lorsqu’un objet est partag´

e par plusieurs clusters, deux

possibilit´

es sont envisageables. La premi`

ere consiste `

dupliquer l’objet et `

a le consid´

erer comme diff´

erent selon

qu’il est contenu dans tel ou tel cluster. Cette m´

ethode

revient en quelquesorte `

a introduire de nouveaux ob-

jets dans le syst`

eme (un mot par variante s´

emantique).

Cependant, cette approche entraˆ

ıne une modiﬁcation du

syst`

eme global et n´

ecessite de recalculer l’ensemble de

ses param`

etres (p(wt),p(cj|wt), etc.). La seconde possi-

bilit´

e est celle que nous retenons ; elle consiste `

a partager

l’objet ´

equitablement selon les clusters auxquels il appar-

tient. Nous proposons alors la pond´

eration suivante :

p(W|wt) = 1

nsi wt∈W

0sinon. (13)

Dans cette d´

eﬁnition, ncorrespond au nombre de clusters

dans lesquels l’objet wtapparaˆ

ıt.

4 L’ALGORITHME DDOC

Dans cette section nous pr´

esentons l’algorithme DDOC

(Distributional Divisive Overlapping Clustering) permet-

tant de structurer le vocabulaire Ven clusters non-

disjoints de mots (ou pseudo partition). Cet algorithme se

divise en deux principales ´

etapes : d’abord la construction

de “noyaux recouvrants” `

a partir d’un sous-ensemble du

vocabulaire, puis une phase it´

erative de multi-affectations

des mots `

a ces “noyaux recouvrants”.

Entr´

ee : Vle vocabulaire extrait du corpus d’entraˆ

ınement

avec (|V|=l),

Mun param`

etre ﬁx´

e∈ {1. . . l},

τun nombre d’it´

erations ﬁx´

- Ordonner Vvia l’information mutuelle avec la variable

de classe : I(w;C),

- Appliquer PoBOC sur les Mpremiers mots de V

relativement `

a l’ordre ´

etabli, (formation de kclusters

non-disjoints, (W1,...,Wk) avec kM)

- Pour chaque cluster Wi, calculer p(Wi)et p(C|Wi),

a l’aide de (11) et (13),

- Pour chaque mot wtnon trait´

e :

- Calculer pour chaque cluster Wi:dKL(wt, Wi),

(avec dKL donn´

e par (8))

- Affecter wtaux clusters les plus proches (TAB. 4),

- Tant que les clusters sont modiﬁ´

es et moins de τiterations :

- Pour chaque cluster Wicalculer p(Wi)et p(C|Wi),

- Pour chaque mot wt∈V:

- Calculer pour chaque cluster Wi:

dKL(p(C|wt)||p(C|Wi)),

- Affecter wtaux clusters les plus proches (TAB. 4).

Sortie : Une pseudo-partition optimis´

ee (W1,...,Wk).

TAB. 3 – L’algorithme DDOC

Pour la premi`

ere ´

etape nous faisons appel `

a l’algo-

ritme PoBOC [Cleuziou et al., 2004] avec, pour mesure

de proximit´

e, la divergence de KL `

a la moyenne (cf. sec-

tion 2.2). L’algorithme g´

en´

eral DDOC est d´

etaill´

e dans

le tableau TAB.3, puis nous pr´

ecisons dans le tableau

TAB.4, la phase de multi-affectations (inspir´

ee de son

equivalent dans l’algorithme PoBOC).

La phase d’ordonnancement des mots par informa-

tion mutuelle (I(w;C)) permet de constituer un “bon”

echantillon de V. Cette technique est en effet utilis´

ee pour

la phase d’initialisation dans l’algorithme ADC et indi-

rectement dans la m´

ethode ITDC.

Les “noyaux recouvrants”4sont le r´

esultat d’une ´

etape

de pr´

e-clustering via PoBOC. Cette initialisation diff`

ere

de l’approche ADC, qui d´

ebute avec uniquement des sin-

gletons, et de l’algorithme ITDC qui scinde ou fusionne

“arbitrairement” une premi`

ere partition de Vaﬁn d’ob-

tenir le nombre d´

esir´

e de clusters. Parceque les noyaux

sont par d´

eﬁnition non-disjoints et en nombre non pr´

d´

etermin´

e, on peut supposer que cette initialisation est `

la fois plus pr´

ecise et plus “objective”.

L’´

etape it´

erative de r´

e-affectations multiples utilis´

ee dans

DDOC, est assez proche de celle propos´

ee dans ITDC.

4On appelle “noyaux recouvrants” les clusters non-disjoints obtenus

par l’algorithme PoBOC

1 / 8 100%

Documents connexes

Algorithme de NEWTON

Clustering : algorithme des K-moyennes

Clustering

algorithme algorithme -bases -une

Résolution numérique des équations non linéaires 1 Calcul d`une

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Clustering et règles d`association

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Commentaire sur la construction de l`arbre

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Regroupement de mots en groupes non

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Regroupement de mots en groupes non

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib