Regroupement de mots en groupes non-disjoints pour la
classification de documents
Guillaume Cleuziou
LIFO - Universit´
e d’Orl´
eans
BP 6759 - 45067 Orl´
eans cedex 02 - France
[email protected]v-orleans.fr
R´
esum´
e : Cet article traite du probl`
eme de r´
eduction
de dimension de l’espace de description pour la classi-
fication de documents. Ce domaine d’´
etude est domin´
e
par trois principales approches de r´
eduction : la s´
election
des attributs `
a l’aide de mesures de gain d’information,
le re-param´
etrage de l’espace par des techniques telles
que LSI (Latente Semantic Indexing) et, plus r´
ecemment,
le regroupement d’attributs par l’utilisation d’un algo-
rithme de clustering adapt´
e. Nous nous int´
eressons ici
`
a cette derni`
ere approche et ´
etudions l’int´
erˆ
et d’int´
egrer
une m´
ethode de regroupement autorisant les recouvre-
ments entre classes plutˆ
ot qu’un algorithme constituant
des classes disjointes.
Dans cet article l’algorithme DDOC (Distributional Di-
visive Overlapping Clustering) permettant de g´
en´
erer des
classes non-disjointes de mots est pr´
esent´
e puis compar´
e
aux deux approches suivantes : Agglomerative Distri-
butional Clustering (ADC) [Baker and McCallum, 1998]
et Information Theoretic Divisive Clustering (ITDC)
[Dhillon et al., 2003]. Globalement, on observe que les
recouvrements permettent d’am´
eliorer la qualit´
e des nou-
veaux attributs par rapport aux classes disjointes, les
exp´
erimentations effectu´
ees sur les corpus 20Newsgroup
et Reuters-21578 conduisent `
a des r´
esultats encoura-
geants.
Mots-cl´
es : Regroupement d’attributs, classification
de documents, regroupement de mots, clustering non-
disjoint, apprentissage.
1 INTRODUCTION
La classification automatique de documents est un
probl`
eme important, `
a l’intersection de deux domaines
de recherche majeurs : l’Apprentissage Automatique
(AA) et la Recherche d’Information (RI). Etant donn ´
e
un mod`
ele de classification, le probl`
eme consiste `
a ap-
prendre les param`
etres de ce mod`
ele, `
a partir des obser-
vations issues d’un corpus d’entraˆ
ınement, constitu´
e de
documents ´
etiquet´
es (document, classe). Ce mod`
ele, pa-
ram´
etr´
e, permet alors de pr´
edire la classe d’appartenance
d’un nouveau document test. La tˆ
ache de classification de
documents est donc un probl`
eme d’apprentissage super-
vis´
e trouvant ses principales applications en RI : le rou-
tage d’information en temps-r´
eel (emails, notes de ser-
vice, etc.), le filtrage d’information (spams, etc.) ainsi que
l’identification de classes s´
emantiques, afin d’int´
egrer
une dimension th´
ematique au processus de RI.
La tˆ
ache de classification automatique de documents
se d´
ecompose en trois ´
etapes : (1) l’extraction d’at-
tributs pertinents, (2) la phase d’apprentissage `
a partir
d’un corpus d’entraˆ
ınement et (3) l’´
evaluation du clas-
sifieur sur un corpus test. Ces trois ´
etapes constituent
chacune un sous-domaine de recherche `
a part enti`
ere
[Aas and Eikvil, 1999]. La phase d’apprentissage (2) est
g´
en´
eralement assur´
ee par des algorithmes de classifi-
cation tels que le classifieur na¨
ıf de Bayes ou encore
les Machines `
a Supports Vectoriels (SVM). La phase
d’´
evaluation (3) n´
ecessite le recours aux mesures de per-
formance telles que la pr´
ecision, le rappel, le Break-even
point ou encore la F-measure. Notre ´
etude se concentre
sur le probl`
eme de l’extraction d’attributs pertinents (1),
´
etape initiale et d´
eterminante pour l’ensemble du proces-
sus de classification.
L’extraction d’attributs consiste `
a rechercher un nou-
vel ensemble d’attributs (aussi appel´
es variables, traits
ou descripteurs) d´
eriv´
e de la description initiale des
donn´
ees, et conservant un maximum d’information sur
ces donn´
ees. Dans le contexte de la classification, les do-
cuments sont g´
en´
eralement assimil´
es `
a des “sacs de mots”
de telle sorte que le vocabulaire apparaissant dans le cor-
pus d’entraˆ
ınement constitue l’ensemble initial d’attri-
buts (1 mot = 1 attribut). La taille de l’espace de descrip-
tion est alors tr`
es importante et donc limitative (en terme
de complexit´
e) pour l’utilisation de techniques de classi-
fication classiques telles que le classifieur na¨
ıf de Bayes,
les approches SVM ou encore les arbres de d´
ecision. De
plus, beaucoup de mots composant ce vocabulaire sont
peu discriminants et peu pertinents, ajoutons `
a cela le fait
que la matrice documents ×mots est tr`
es ´
eparse (beau-
coup de 0). Par cons´
equent, le probl`
eme d’extraction d’at-
tributs pertinents pour la classification de documents est
fortement li´
e`
a la n´
ecessit´
e de r´
eduire la dimension et
d’am´
eliorer la pertinence de l’espace de description des
documents. Trois solutions ont ´
et´
e propos´
ees jusqu’alors :
la s´
election, le re-param´
etrage et le regroupement des at-
tributs.
L’approche par s´
election consiste `
a d´
efinir un ensemble
d’attributs permettant de conserver un maximum d’infor-
mation relativement `
a la description initiale des donn´
ees.
Diff´
erentes m´
ethodes de s´
election ont ´
et´
e propos´
ees et
compar´
ees parmi lesquelles on peut citer le Gain d’In-
formation, l’Information Mutuelle ou encore la mesure
du χ2(voir [Forman, 2003] pour une ´
etude compara-
tive). Ces mesures reposent, g´
en´
eralement, sur l’´
etude des
d´
ependances conditionnelles entre les attributs (mots) et
les classes.
Le re-param´
etrage de l’espace des attributs consiste,
en revanche, `
a d´
efinir un nouvel ensemble d’attributs,
chaque nouvel attribut ´
etant construit par combinaison
lin´
eaire des attributs initiaux. Cette m´
ethode est mieux
connue sous le nom de Latente Semantic Indexing (LSI)
[Deerwester et al., 1990, Roche and Kodratoff, 2003]
dans le cadre de l’application `
a la classification de
documents. L’ensemble des attributs initiaux est utilis´
e,
la r´
eduction de l’espace s’op`
ere alors par ´
elimination
des dimensions peu pertinentes (analyse en compo-
santes principales ACP). Dans la plupart des ´
etudes
comparatives, cette approche de r´
eduction induit des
taux de bonnes classification meilleurs que la s´
election
d’attributs.
Enfin, une technique de r´
eduction plus r´
ecente,
puisque introduite en 1998 par Baker et McCallum
[Baker and McCallum, 1998], consiste `
a regrouper les
attributs mots, afin d’indexer les documents `
a partir de
groupes de mots. Il s’agit alors de construire une partition
du vocabulaire, maximisant l’information conserv´
ee.
Dans cette application, deux techniques de partitionne-
ment se d´
egagent : l’algorithme ADC (Agglomerative
Distributional Clustering) [Baker and McCallum, 1998],
bas´
e sur un formalisme distributionnel initi´
e par
[Pereira et al., 1993], et ITDC (Information Theoretic
Divisive Clustering) [Dhillon et al., 2003]. Le regroupe-
ment d’attributs semble aujourd’hui ˆ
etre une m´
ethode
de r´
eduction prometteuse, conduisant `
a une meilleure
indexation des documents que les approches pr´
ec´
edentes
de s´
election ou de re-param´
etrage.
L’approche de r´
eduction par re-param´
etrage peut
´
egalement ˆ
etre interpr´
et´
ee dans ce contexte, comme
une m´
ethode de partitionnement flou. Par exemple, la
m´
ethode LSI aboutie `
a un ensemble d’attributs tels que
chaque nouvel attribut est une combinaison lin´
eaire des
attributs de d´
epart. En ce sens, ces nouveaux attributs
peuvent donc ˆ
etre consid´
er´
es comme des clusters “flous”
d´
efinis par un ensemble pond´
er´
e de mots. Dans cet article,
nous postulons qu’un compromis entre ces deux derni`
eres
techniques (partitionnement “stricte” et “flou”) pourrait
conduire `
a des attributs de meilleure qualit´
e. L’algorithme
DDOC (Distributional Divisive Overlapping Clustering)
permet de constituer des groupes non-disjoints de mots,
tels que chaque mot peut appartenir `
a un ou plusieurs
clusters (pseudo-partition). Ce type de sch´
ema est mo-
tiv´
e par une vision s´
emantique des relations (complexes
et ambig¨
ues) existant entre les termes.
L’article est organis´
e comme suit. La prochaine sec-
tion est d´
edi´
ee aux notions cl´
es concernant le classi-
fieur na¨
ıf de Bayes ainsi qu’aux approches existantes,
pour la r´
eduction de l’espace par regroupement de
mots. La partie 3 pr´
esente les motivations de l’ap-
proche par regroupement non-disjoint ainsi que le mod`
ele
probabiliste g´
en´
eral de la m´
ethode. Les parties 4 et
5 traitent succ´
essivement de l’algorithme DDOC puis
des exp´
erimentations effectu´
ees sur les corpus traditio-
nels : 20Newsgroup et Reuters-21578. Enfin, un bilan de
l’´
etude est propos´
e avant de conclure et de pr´
esenter les
perspectives de ce travail.
2 CLASSIFICATION DE DOCUMENTS ET RE-
GROUPEMENT D’ATTRIBUTS
Le processus de regroupement d’attributs, pour
l’indexation des documents, a ´
et´
e initi´
e par Ba-
ker et McCallum [Baker and McCallum, 1998].
Ils proposent une approche bas´
ee sur une ana-
lyse distributionelle des mots apparaissant dans le
corpus d’entraˆ
ınement [Pereira et al., 1993]. Plu-
sieurs autres approches, fortement inspir´
ees de cette
´
etude pr´
eliminaire, ont ´
et´
e propos´
ees par la suite
[Slonim and Tishby, 2000, Dhillon et al., 2003]. Dans
cette section, nous pr´
esentons d’abord le classifieur
na¨
ıf de Bayes dans le cadre de la classification de
documents, puis nous comparons deux algorithmes de
regroupements de mots : Agglomerative Distributio-
nal Clustering (ADC) [Baker and McCallum, 1998]
et Information-Theoretic Divisive Clustering (ITDC)
[Dhillon et al., 2003].
Nous utiliserons les notations suivantes : le corpus d’en-
traˆ
ınement est not´
eD={d1, . . . , dn}, le vocabulaire
extrait de Dest not´
eV={w1,...,wl}et C=
{c1,...,cm}correspond aux ´
etiquettes de classes des do-
cuments.
2.1 Le classifieur na¨
ıf de Bayes pour la classification
de documents
Le classifieur na¨
ıf de Bayes est connu pour ses perfor-
mances en classification automatique de documents. Il
s’agit d’apprendre, pour chaque classe, un mod`
ele de
g´
en´
eration des documents de la classe. Ces mod`
eles sont
d´
efinis par les distributions p(di|cj;θ)exprimant le pro-
babilit´
ea priori que le document disoit g´
en´
er´
e par la
classe cj(1). Dans cette d´
efinition, θcorrespond aux pa-
ram`
etres `
a´
estimer `
a partir d’un corpus d’entraˆ
ınement.
p(di|cj;θ) = p(|di|)Y
{wtdi}
p(wt|cj;θ)(1)
Cette expression est obtenue sous l’hypoth`
ese “na¨
ıve”
d’ind´
ependance entre les mots (notament sur l’ordre
d’apparition des mots). On sait que cette hypoth`
ese
n’est pas v´
erifi´
ee, cependant les ´
etudes pr´
ec´
edentes
montrent, qu’en pratique, les performances du classi-
fieur na¨
ıf de Bayes pour la classification de documents
restent bonnes sous cette hypoth`
ese d’ind´
ependance
[Domingos and Pazzani, 1996]. Dans l’´
equation (1),
p(wt|cj;θ)est estim´
ee sur le corpus d’entraˆ
ınement via
la r`
egle de succession de Laplace (2), avec N(wt, di)
d´
esignant le nombre d’occurrences du mots wtdans le
document di:
p(wt|cj;θ)
1 + X
{dicj}
N(wt, di)
l+X
{wsV}X
{dicj}
N(ws, di)(2)
Pour classer un nouveau document d, on observe la pro-
babilit´
ea priori p(cj|d;θ). Ainsi, la classe pr´
edite pour
le document dsera celle qui maximize cette probabilit´
e,
calcul´
ee par la r`
egle de Bayes (3) :
p(cj|d;θ) = p(cj|θ)p(d|cj;θ)
p(d|θ)(3)
Par ´
etapes succ´
essives de transformations et simplifica-
tions math´
ematiques1sur l’´
equation (3), le classifieur de
Bayes peut ˆ
etre reformul´
e ainsi :
c(d) = arg max
{cj∈C}
log p(cj|θ)
|d|
+X
{wtV}
p(wt|d) log p(wt|cj;θ)(4)
Dans cette derni`
ere ´
equation, p(cj|θ)est donn´
ee par le
rapport du nombre de documents de ´
etiquet´
es cjdans D
sur le nombre total de documents dans D.
Dans le cadre du regroupement de mots, on note W=
{W1,...,Wp}le r´
esultat d’un partitionnement du voca-
bulaire V, tel que chaque cluster Wiest un sous ensemble
de Vet l’union de tous les clusters de West ´
egale `
aV.
Afin de d´
ecrire les documents par des groupes de mots,
plutˆ
ot que par des mots, les equations (1) et (4) doivent
ˆ
etre modifi´
ees en remplac¸ant wpar W. Les expressions
p(Ws|cj;θ)et p(Ws|d)sont d´
efinies par les ´
equations
suivantes, dans le cas classique d’un regroupement en
classes disjointes (on dit aussi que West une partition
stricte de V) :
p(Ws|cj;θ) = X
{dicj}
N(Ws, di)
X
{Wk∈W} X
{dicj}
N(Wk, di)
p(Ws|d) = N(Ws,d)
|d|
(5)
o`
uN(Wk, d) = P{wtWk}n(wt, d). Dans notre ´
etude
ce mod`
ele doit ˆ
etre adapt´
e au cas de classes non-
disjointes (on parle aussi de pseudo-partition). Nous
pr´
esenterons ce formalisme d’adaptation en section 3.
2.2 L’algorithme de clustering ADC
L’algorithme ADC (Agglomerative Distributional Clus-
tering) a ´
et´
e propos´
e en 1998 par Baker et McCallum
[Baker and McCallum, 1998]. Ce travail est bas´
e sur la
1Pour plus de d´
etails, voir [Dhillon et al., 2003]
- Ordonner Vvia l’information mutuelle avec la variable
de classe : I(w;C)(cf. eq.9)
- Initialiser kclusters : ksingletons correspondant aux k
premiers mots de Vsuivant l’ordre ´
etabli
- Tant que tous les mots de Vne sont pas int´
egr´
es :
- Fusionner les deux clusters les plus similaires
(k1clusters restant),
- G´
en´
erer un nouveau cluster (singleton constitu´
e du
mot suivant dans Vordonn´
e).
TAB. 1 – L’algorithme de clustering ADC
th´
eorie distributionnelle initi´
ee en 1993 par Pereira et al.
[Pereira et al., 1993]. Chaque mot wtde Vest caract´
eris´
e
par deux composantes : la distribution du mot sur les
classes {p(cj|wt)}j=1...m et la probabilit´
e d’apparition
du mot p(wt). Ces descriptions sont apprises `
a partir du
corpus d’entraˆ
ınement.
p(cj|wt) = X
{dicj}
δ(wt, di)
X
{di∈D}
δ(wt, di)(6)
o`
uδ(wt, di)vaut 1si wtest pr´
esent dans diet 0sinon.
L’objectif est de regrouper ensemble les mots jouant des
rˆ
oles similaires dans classification des documents. Une
mesure adapt´
ee doit ˆ
etre utilis´
ee afin d’´
evaluer la proxi-
mit´
e entre deux mots. La divergence de Kullback-Leibler
(KL), permet de comparer deux distributions :
D(p(C|wt)||p(C|ws)) =
m
X
j=1
p(cj|wt) log p(cj|wt)
p(cj|ws)(7)
Cependant cette mesure n’est pas sym´
etrique et n’est pas
d´
efinie dans le cas o`
up(cj|ws)vaut 0. En pratique on
utilise plutˆ
ot la “divergence de KL `
a la moyenne” :
d(wt, ws) = πt.D(p(C|wt)||p(C|wtws))
+πs.D(p(C|ws)||p(C|wtws)) (8)
Dans l’´
equation (8), p(C|wtws)est d´
efinie par
πt
πt+πs
p(C|wt) + πs
πt+πs
p(C|ws)
o`
uπt=p(wt).
L’algorithme de clustering, pr´
esent´
e dans le tableau
TAB.1, proc`
ede par fusions succ´
essives des deux plus
proches clusters, en utilisant la mesure de proximit´
e
d´
efinie pr´
ec´
edemment (8).
Cet algorithme est incr´
emental, il est donc adapt´
e au
traitement d’ensembles importants de donn´
ees, avec une
complexit´
e en O(lk2m)avec l,ket mcorrespondant res-
pectivement au nombre de mots, clusters et classes.
2.3 L’algorithme de clustering ITDC
L’algorithme ITDC (Information Theoretic Divisive
Clustering), pr´
esent´
e dans [Dhillon et al., 2003], est bas´
e
sur l’optimisation d’un crit`
ere global d’information
mutuelle, inspir´
e de la m´
ethode Information Bottle-
neck [Slonim and Tishby, 2000]. Soient Cla variable de
classe, Vle vocabulaire et Wune partition stricte de V,
l’information perdue par le passage de V`
aW, comme
descripteurs des documents, peut ˆ
etre ´
evalu´
ee par la
diff´
erence I(C;V)I(C;W). L’information mutuelle
entre deux variables al´
eatoires Xet Yest d´
efinie par :
I(X;Y) = X
xX,yY
p(x)p(y|x) log p(y|x)
p(y)(9)
Le tableau TAB.2 pr´
esente l’algorithme ITDC. Cette
m´
ethode de regroupement proc`
ede de fac¸on comparable
`
a l’algorithme bien connu des k-moyennes : `
a partir
d’une partition initiale, les objets sont it´
erativement r´
e-
affect´
es de fac¸on `
a optimiser un crit`
ere de qualit´
e. Ici,
ce crit`
ere correspond `
a la fonction pr´
ec´
edemment d´
efinie
(I(C;V)I(C;W)) et la phase d’initialisation consiste `
a
construire des clusters “typiques” des classes cibles avant
de les fusionner ou de les scinder afin d’obtenir le nombre
d´
esir´
e de groupes. La partition finale correspond donc `
a
un optimum local pour la fonction de qualit´
e. La com-
plexit´
e de l’algorithme ITDC est en O(lk)avec l,k,
met τcorrespondant respectivement au nombre de mots,
clusters, classes et it´
erations.
Entr´
ee : le nombre d´
esir´
e de clusters ket V, le vocabulaire
`
a traiter.
- Initialisation : mclusters (pour mclasses) tels que
Wi={wtV|ci= arg max
j
p(cj|wt)}
- si k > m : scinder arbitrairement chaque cluster en
bk/mcclusters (partie enti`
ere),
- si k < m : fusionner les clusters jusqu’`
a en obtenir k
- Tant que la variation de la fonction de qualit´
e
I(C, V )I(C, W)est > ε (fix´
e),
- pour chaque cluster Wj, calculer p(Wj)et p(C|Wj),
- pour chaque mot wtV, rechercher son plus proche
cluster : j(wt) = arg min
i
D(p(C|wt)||p(C|Wi))
puis r´
e-affecter wtau cluster Wj
- calculer l’information mutuelle I(C;W)avec
les nouveaux clusters
Sortie : le partitionnement stricte Wde Ven kclusters.
TAB. 2 – L’algorithme de clustering ITDC
3 PSEUDO-PARTITIONNEMENT : MOTIVA-
TIONS ET CADRE PROBABILISTE
Consid´
erons un corpus d’entraˆ
ınement o`
u chaque docu-
ment est ´
etiquet´
e par l’une des deux classes : Aou B.
Supposons que le vocabulaire V, extrait de ce corpus,
s’organise en deux sous-ensembles W1et W2, plus un
mot wstels que :
wiW1, p(cA|wi)1et p(cB|wi)0,
wiW2, p(cB|wi)0et p(cB|wi)1,
p(cA|ws)p(cB|ws)1
2.
Autrement dit, les mots de W1apparaisent quasi-
exclusivement dans les documents de classe A, les mots
de W2quasi-exclusivement dans les documents de classe
B, tandis que le mot wsapparaˆ
ıt ´
equitablement dans les
deux classes de documents Aet B.
Un partitionnement stricte de V, conduira vraissembla-
blement `
a l’un des deux sch´
emas suivants : P1={W1
{ws}, W2}ou P2={W1, W2∪ {ws}}.
Supposons `
a pr´
esent que l’on cherche `
a classer un nou-
veau document d, caract´
eris´
e par la pr´
esence de wsuni-
quement, parmi les mots de V.
La caract´
erisation d’un groupe de mot WVest d´
eriv´
ee
de la caract´
erisation des mots qui le composent par :
p(W) = PwtWp(wt)
p(cj|W) = PwtW
p(wt)
p(W)p(cj|wt)
(10)
Si la partition P1a´
et´
e´
etablie, on a p(cj|d) = p(cj|W1
ws). Par le syst`
eme d’´
equations (10) et les hypoth`
eses de
distributions des mots sur les classes, on en d´
eduit que
p(cA|d)p(cB|d)d’o`
u l’affectation de d`
a la classe
A. En revanche, si c’est la partition P2qui est ´
etablie, le
document dsera class´
e dans B.
En g´
en´
eralisant cet exemple, si beaucoup de mots “am-
bigus” apparaissent dans un document test, le biais in-
duit par un partitionnement strict du vocabulaire peut en-
traˆ
ıner une perte d’information importante dans l’indexa-
tion des documents et ainsi produire des erreurs de clas-
sification en cons´
equence.
Ce ph´
enom`
ene peut s’expliquer ´
egalement dans un cadre
s´
emantique. Par exemple, si l’on consid`
ere que les deux
classes Aet Bcorrespondent `
a des documents por-
tant sur les th´
ematiques respectives de la “justice” et de
la “gastronomie”. Ces deux th´
ematiques semblent bien
diff´
erentes puisqu’elles poss`
edent chacune leur propre
terminologie. Supposons alors que les deux ensembles de
mots suivants ont ´
et´
e extraits du corpus d’entraˆ
ınement :
W1={Court Suprˆ
eme, Magistrat, Citoyen, Avocat,
... }et W2={Restaurant, Salade, Asperge, Avocat,
...}. Le mot ws=“avocat” est polys´
emique et appartient
aussi bien `
a la th´
ematique de la “justice”2qu’`
a celle de
la “gastronomie”3. Dans la construction d’une partition
stricte du vocabulaire extrait, wssera inclu dans l’un des
2Par exemple Le r´
equisitoire de l’avocat ´
etait brillant.
3Par exemple Ce restaurant propose une d´
elicieuse salade d’avo-
cats.
deux groupes W1ou W2exclusivement, ce qui revient
`
a conserver l’un des deux sens observ´
es de ce mots et `
a
ignorer le second.
L’exemple pr´
ec´
edent traite d’une situation extrˆ
eme. Ce-
pendant on peut facilement constater que beaucoup de
termes sont partag´
es par plusieurs documents, dans des
contextes s´
emantiques distincts, avec diff´
erents degr´
es
d’implication.
Dans cette ´
etude nous proposons de supprimer la
contrainte li´
ee `
a la construction de partitions strictes,
en utilisant un algorithme de clustering autorisant les
recouvrements entre les clusters. Les clusters obtenus
forment alors ce que l’on appelle une pseudo-partition
de l’ensemble des objets. Ces intersections entre clusters
n´
ecessitent une adaptation du mod`
ele probabiliste d´
efini
jusqu’alors. Le syst`
eme propos´
e en (10) se red´
efini par :
p(W) = P{wtV}p(W|wt)p(wt)
p(c|W) = 1
p(W)P{wtV}p(W|wt)p(wt)p(c|wt).
(11)
Dans (11), le terme p(W|wt)correspond au degr´
es d’im-
plication du mot wtdans le cluster W. Dans le cas d’un
partitionnement stricte, chaque objet appartient `
a un seul
cluster, p(W|wt)peut alors s’´
ecrire :
p(W|wt) = 1si wtW
0sinon. (12)
Lorsqu’un objet est partag´
e par plusieurs clusters, deux
possibilit´
es sont envisageables. La premi`
ere consiste `
a
dupliquer l’objet et `
a le consid´
erer comme diff´
erent selon
qu’il est contenu dans tel ou tel cluster. Cette m´
ethode
revient en quelquesorte `
a introduire de nouveaux ob-
jets dans le syst`
eme (un mot par variante s´
emantique).
Cependant, cette approche entraˆ
ıne une modification du
syst`
eme global et n´
ecessite de recalculer l’ensemble de
ses param`
etres (p(wt),p(cj|wt), etc.). La seconde possi-
bilit´
e est celle que nous retenons ; elle consiste `
a partager
l’objet ´
equitablement selon les clusters auxquels il appar-
tient. Nous proposons alors la pond´
eration suivante :
p(W|wt) = 1
nsi wtW
0sinon. (13)
Dans cette d´
efinition, ncorrespond au nombre de clusters
dans lesquels l’objet wtapparaˆ
ıt.
4 L’ALGORITHME DDOC
Dans cette section nous pr´
esentons l’algorithme DDOC
(Distributional Divisive Overlapping Clustering) permet-
tant de structurer le vocabulaire Ven clusters non-
disjoints de mots (ou pseudo partition). Cet algorithme se
divise en deux principales ´
etapes : d’abord la construction
de “noyaux recouvrants” `
a partir d’un sous-ensemble du
vocabulaire, puis une phase it´
erative de multi-affectations
des mots `
a ces “noyaux recouvrants”.
Entr´
ee : Vle vocabulaire extrait du corpus d’entraˆ
ınement
avec (|V|=l),
Mun param`
etre fix´
e∈ {1. . . l},
τun nombre d’it´
erations fix´
e,
- Ordonner Vvia l’information mutuelle avec la variable
de classe : I(w;C),
- Appliquer PoBOC sur les Mpremiers mots de V
relativement `
a l’ordre ´
etabli, (formation de kclusters
non-disjoints, (W1,...,Wk) avec kM)
- Pour chaque cluster Wi, calculer p(Wi)et p(C|Wi),
`
a l’aide de (11) et (13),
- Pour chaque mot wtnon trait´
e :
- Calculer pour chaque cluster Wi:dKL(wt, Wi),
(avec dKL donn´
e par (8))
- Affecter wtaux clusters les plus proches (TAB. 4),
- Tant que les clusters sont modifi´
es et moins de τiterations :
- Pour chaque cluster Wicalculer p(Wi)et p(C|Wi),
- Pour chaque mot wtV:
- Calculer pour chaque cluster Wi:
dKL(p(C|wt)||p(C|Wi)),
- Affecter wtaux clusters les plus proches (TAB. 4).
Sortie : Une pseudo-partition optimis´
ee (W1,...,Wk).
TAB. 3 – L’algorithme DDOC
Pour la premi`
ere ´
etape nous faisons appel `
a l’algo-
ritme PoBOC [Cleuziou et al., 2004] avec, pour mesure
de proximit´
e, la divergence de KL `
a la moyenne (cf. sec-
tion 2.2). L’algorithme g´
en´
eral DDOC est d´
etaill´
e dans
le tableau TAB.3, puis nous pr´
ecisons dans le tableau
TAB.4, la phase de multi-affectations (inspir´
ee de son
´
equivalent dans l’algorithme PoBOC).
La phase d’ordonnancement des mots par informa-
tion mutuelle (I(w;C)) permet de constituer un “bon”
´
echantillon de V. Cette technique est en effet utilis´
ee pour
la phase d’initialisation dans l’algorithme ADC et indi-
rectement dans la m´
ethode ITDC.
Les “noyaux recouvrants”4sont le r´
esultat d’une ´
etape
de pr´
e-clustering via PoBOC. Cette initialisation diff`
ere
de l’approche ADC, qui d´
ebute avec uniquement des sin-
gletons, et de l’algorithme ITDC qui scinde ou fusionne
“arbitrairement” une premi`
ere partition de Vafin d’ob-
tenir le nombre d´
esir´
e de clusters. Parceque les noyaux
sont par d´
efinition non-disjoints et en nombre non pr´
e-
d´
etermin´
e, on peut supposer que cette initialisation est `
a
la fois plus pr´
ecise et plus “objective”.
L´
etape it´
erative de r´
e-affectations multiples utilis´
ee dans
DDOC, est assez proche de celle propos´
ee dans ITDC.
4On appelle “noyaux recouvrants” les clusters non-disjoints obtenus
par l’algorithme PoBOC
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !