
du χ2(voir [Forman, 2003] pour une ´
etude compara-
tive). Ces mesures reposent, g´
en´
eralement, sur l’´
etude des
d´
ependances conditionnelles entre les attributs (mots) et
les classes.
Le re-param´
etrage de l’espace des attributs consiste,
en revanche, `
a d´
efinir un nouvel ensemble d’attributs,
chaque nouvel attribut ´
etant construit par combinaison
lin´
eaire des attributs initiaux. Cette m´
ethode est mieux
connue sous le nom de Latente Semantic Indexing (LSI)
[Deerwester et al., 1990, Roche and Kodratoff, 2003]
dans le cadre de l’application `
a la classification de
documents. L’ensemble des attributs initiaux est utilis´
e,
la r´
eduction de l’espace s’op`
ere alors par ´
elimination
des dimensions peu pertinentes (analyse en compo-
santes principales ACP). Dans la plupart des ´
etudes
comparatives, cette approche de r´
eduction induit des
taux de bonnes classification meilleurs que la s´
election
d’attributs.
Enfin, une technique de r´
eduction plus r´
ecente,
puisque introduite en 1998 par Baker et McCallum
[Baker and McCallum, 1998], consiste `
a regrouper les
attributs mots, afin d’indexer les documents `
a partir de
groupes de mots. Il s’agit alors de construire une partition
du vocabulaire, maximisant l’information conserv´
ee.
Dans cette application, deux techniques de partitionne-
ment se d´
egagent : l’algorithme ADC (Agglomerative
Distributional Clustering) [Baker and McCallum, 1998],
bas´
e sur un formalisme distributionnel initi´
e par
[Pereira et al., 1993], et ITDC (Information Theoretic
Divisive Clustering) [Dhillon et al., 2003]. Le regroupe-
ment d’attributs semble aujourd’hui ˆ
etre une m´
ethode
de r´
eduction prometteuse, conduisant `
a une meilleure
indexation des documents que les approches pr´
ec´
edentes
de s´
election ou de re-param´
etrage.
L’approche de r´
eduction par re-param´
etrage peut
´
egalement ˆ
etre interpr´
et´
ee dans ce contexte, comme
une m´
ethode de partitionnement flou. Par exemple, la
m´
ethode LSI aboutie `
a un ensemble d’attributs tels que
chaque nouvel attribut est une combinaison lin´
eaire des
attributs de d´
epart. En ce sens, ces nouveaux attributs
peuvent donc ˆ
etre consid´
er´
es comme des clusters “flous”
d´
efinis par un ensemble pond´
er´
e de mots. Dans cet article,
nous postulons qu’un compromis entre ces deux derni`
eres
techniques (partitionnement “stricte” et “flou”) pourrait
conduire `
a des attributs de meilleure qualit´
e. L’algorithme
DDOC (Distributional Divisive Overlapping Clustering)
permet de constituer des groupes non-disjoints de mots,
tels que chaque mot peut appartenir `
a un ou plusieurs
clusters (pseudo-partition). Ce type de sch´
ema est mo-
tiv´
e par une vision s´
emantique des relations (complexes
et ambig¨
ues) existant entre les termes.
L’article est organis´
e comme suit. La prochaine sec-
tion est d´
edi´
ee aux notions cl´
es concernant le classi-
fieur na¨
ıf de Bayes ainsi qu’aux approches existantes,
pour la r´
eduction de l’espace par regroupement de
mots. La partie 3 pr´
esente les motivations de l’ap-
proche par regroupement non-disjoint ainsi que le mod`
ele
probabiliste g´
en´
eral de la m´
ethode. Les parties 4 et
5 traitent succ´
essivement de l’algorithme DDOC puis
des exp´
erimentations effectu´
ees sur les corpus traditio-
nels : 20Newsgroup et Reuters-21578. Enfin, un bilan de
l’´
etude est propos´
e avant de conclure et de pr´
esenter les
perspectives de ce travail.
2 CLASSIFICATION DE DOCUMENTS ET RE-
GROUPEMENT D’ATTRIBUTS
Le processus de regroupement d’attributs, pour
l’indexation des documents, a ´
et´
e initi´
e par Ba-
ker et McCallum [Baker and McCallum, 1998].
Ils proposent une approche bas´
ee sur une ana-
lyse distributionelle des mots apparaissant dans le
corpus d’entraˆ
ınement [Pereira et al., 1993]. Plu-
sieurs autres approches, fortement inspir´
ees de cette
´
etude pr´
eliminaire, ont ´
et´
e propos´
ees par la suite
[Slonim and Tishby, 2000, Dhillon et al., 2003]. Dans
cette section, nous pr´
esentons d’abord le classifieur
na¨
ıf de Bayes dans le cadre de la classification de
documents, puis nous comparons deux algorithmes de
regroupements de mots : Agglomerative Distributio-
nal Clustering (ADC) [Baker and McCallum, 1998]
et Information-Theoretic Divisive Clustering (ITDC)
[Dhillon et al., 2003].
Nous utiliserons les notations suivantes : le corpus d’en-
traˆ
ınement est not´
eD={d1, . . . , dn}, le vocabulaire
extrait de Dest not´
eV={w1,...,wl}et C=
{c1,...,cm}correspond aux ´
etiquettes de classes des do-
cuments.
2.1 Le classifieur na¨
ıf de Bayes pour la classification
de documents
Le classifieur na¨
ıf de Bayes est connu pour ses perfor-
mances en classification automatique de documents. Il
s’agit d’apprendre, pour chaque classe, un mod`
ele de
g´
en´
eration des documents de la classe. Ces mod`
eles sont
d´
efinis par les distributions p(di|cj;θ)exprimant le pro-
babilit´
ea priori que le document disoit g´
en´
er´
e par la
classe cj(1). Dans cette d´
efinition, θcorrespond aux pa-
ram`
etres `
a´
estimer `
a partir d’un corpus d’entraˆ
ınement.
p(di|cj;θ) = p(|di|)Y
{wt∈di}
p(wt|cj;θ)(1)
Cette expression est obtenue sous l’hypoth`
ese “na¨
ıve”
d’ind´
ependance entre les mots (notament sur l’ordre
d’apparition des mots). On sait que cette hypoth`
ese
n’est pas v´
erifi´
ee, cependant les ´
etudes pr´
ec´
edentes
montrent, qu’en pratique, les performances du classi-
fieur na¨
ıf de Bayes pour la classification de documents
restent bonnes sous cette hypoth`
ese d’ind´
ependance
[Domingos and Pazzani, 1996]. Dans l’´
equation (1),
p(wt|cj;θ)est estim´
ee sur le corpus d’entraˆ
ınement via
la r`
egle de succession de Laplace (2), avec N(wt, di)
d´
esignant le nombre d’occurrences du mots wtdans le
document di: