Regroupement de mots en groupes non

publicité
Regroupement de mots en groupes non-disjoints pour la
classification de documents
Guillaume Cleuziou
LIFO - Université d’Orléans
BP 6759 - 45067 Orléans cedex 02 - France
[email protected]
Résumé : Cet article traite du problème de réduction
de dimension de l’espace de description pour la classification de documents. Ce domaine d’étude est dominé
par trois principales approches de réduction : la sélection
des attributs à l’aide de mesures de gain d’information,
le re-paramétrage de l’espace par des techniques telles
que LSI (Latente Semantic Indexing) et, plus récemment,
le regroupement d’attributs par l’utilisation d’un algorithme de clustering adapté. Nous nous intéressons ici
à cette dernière approche et étudions l’intérêt d’intégrer
une méthode de regroupement autorisant les recouvrements entre classes plutôt qu’un algorithme constituant
des classes disjointes.
Dans cet article l’algorithme DDOC (Distributional Divisive Overlapping Clustering) permettant de générer des
classes non-disjointes de mots est présenté puis comparé
aux deux approches suivantes : Agglomerative Distributional Clustering (ADC) [Baker and McCallum, 1998]
et Information Theoretic Divisive Clustering (ITDC)
[Dhillon et al., 2003]. Globalement, on observe que les
recouvrements permettent d’améliorer la qualité des nouveaux attributs par rapport aux classes disjointes, les
expérimentations effectuées sur les corpus 20Newsgroup
et Reuters-21578 conduisent à des résultats encourageants.
Mots-clés : Regroupement d’attributs, classification
de documents, regroupement de mots, clustering nondisjoint, apprentissage.
1 INTRODUCTION
La classification automatique de documents est un
problème important, à l’intersection de deux domaines
de recherche majeurs : l’Apprentissage Automatique
(AA) et la Recherche d’Information (RI). Etant donné
un modèle de classification, le problème consiste à apprendre les paramètres de ce modèle, à partir des observations issues d’un corpus d’entraı̂nement, constitué de
documents étiquetés (document, classe). Ce modèle, paramétré, permet alors de prédire la classe d’appartenance
d’un nouveau document test. La tâche de classification de
documents est donc un problème d’apprentissage supervisé trouvant ses principales applications en RI : le routage d’information en temps-réel (emails, notes de service, etc.), le filtrage d’information (spams, etc.) ainsi que
l’identification de classes sémantiques, afin d’intégrer
une dimension thématique au processus de RI.
La tâche de classification automatique de documents
se décompose en trois étapes : (1) l’extraction d’attributs pertinents, (2) la phase d’apprentissage à partir
d’un corpus d’entraı̂nement et (3) l’évaluation du classifieur sur un corpus test. Ces trois étapes constituent
chacune un sous-domaine de recherche à part entière
[Aas and Eikvil, 1999]. La phase d’apprentissage (2) est
généralement assurée par des algorithmes de classification tels que le classifieur naı̈f de Bayes ou encore
les Machines à Supports Vectoriels (SVM). La phase
d’évaluation (3) nécessite le recours aux mesures de performance telles que la précision, le rappel, le Break-even
point ou encore la F-measure. Notre étude se concentre
sur le problème de l’extraction d’attributs pertinents (1),
étape initiale et déterminante pour l’ensemble du processus de classification.
L’extraction d’attributs consiste à rechercher un nouvel ensemble d’attributs (aussi appelés variables, traits
ou descripteurs) dérivé de la description initiale des
données, et conservant un maximum d’information sur
ces données. Dans le contexte de la classification, les documents sont généralement assimilés à des “sacs de mots”
de telle sorte que le vocabulaire apparaissant dans le corpus d’entraı̂nement constitue l’ensemble initial d’attributs (1 mot = 1 attribut). La taille de l’espace de description est alors très importante et donc limitative (en terme
de complexité) pour l’utilisation de techniques de classification classiques telles que le classifieur naı̈f de Bayes,
les approches SVM ou encore les arbres de décision. De
plus, beaucoup de mots composant ce vocabulaire sont
peu discriminants et peu pertinents, ajoutons à cela le fait
que la matrice documents × mots est très éparse (beaucoup de 0). Par conséquent, le problème d’extraction d’attributs pertinents pour la classification de documents est
fortement lié à la nécessité de réduire la dimension et
d’améliorer la pertinence de l’espace de description des
documents. Trois solutions ont été proposées jusqu’alors :
la sélection, le re-paramétrage et le regroupement des attributs.
L’approche par sélection consiste à définir un ensemble
d’attributs permettant de conserver un maximum d’information relativement à la description initiale des données.
Différentes méthodes de sélection ont été proposées et
comparées parmi lesquelles on peut citer le Gain d’Information, l’Information Mutuelle ou encore la mesure
du χ2 (voir [Forman, 2003] pour une étude comparative). Ces mesures reposent, généralement, sur l’étude des
dépendances conditionnelles entre les attributs (mots) et
les classes.
Le re-paramétrage de l’espace des attributs consiste,
en revanche, à définir un nouvel ensemble d’attributs,
chaque nouvel attribut étant construit par combinaison
linéaire des attributs initiaux. Cette méthode est mieux
connue sous le nom de Latente Semantic Indexing (LSI)
[Deerwester et al., 1990,
Roche and Kodratoff, 2003]
dans le cadre de l’application à la classification de
documents. L’ensemble des attributs initiaux est utilisé,
la réduction de l’espace s’opère alors par élimination
des dimensions peu pertinentes (analyse en composantes principales ACP). Dans la plupart des études
comparatives, cette approche de réduction induit des
taux de bonnes classification meilleurs que la sélection
d’attributs.
Enfin, une technique de réduction plus récente,
puisque introduite en 1998 par Baker et McCallum
[Baker and McCallum, 1998], consiste à regrouper les
attributs mots, afin d’indexer les documents à partir de
groupes de mots. Il s’agit alors de construire une partition
du vocabulaire, maximisant l’information conservée.
Dans cette application, deux techniques de partitionnement se dégagent : l’algorithme ADC (Agglomerative
Distributional Clustering) [Baker and McCallum, 1998],
basé sur un formalisme distributionnel initié par
[Pereira et al., 1993], et ITDC (Information Theoretic
Divisive Clustering) [Dhillon et al., 2003]. Le regroupement d’attributs semble aujourd’hui être une méthode
de réduction prometteuse, conduisant à une meilleure
indexation des documents que les approches précédentes
de sélection ou de re-paramétrage.
L’approche de réduction par re-paramétrage peut
également être interprétée dans ce contexte, comme
une méthode de partitionnement flou. Par exemple, la
méthode LSI aboutie à un ensemble d’attributs tels que
chaque nouvel attribut est une combinaison linéaire des
attributs de départ. En ce sens, ces nouveaux attributs
peuvent donc être considérés comme des clusters “flous”
définis par un ensemble pondéré de mots. Dans cet article,
nous postulons qu’un compromis entre ces deux dernières
techniques (partitionnement “stricte” et “flou”) pourrait
conduire à des attributs de meilleure qualité. L’algorithme
DDOC (Distributional Divisive Overlapping Clustering)
permet de constituer des groupes non-disjoints de mots,
tels que chaque mot peut appartenir à un ou plusieurs
clusters (pseudo-partition). Ce type de schéma est motivé par une vision sémantique des relations (complexes
et ambigües) existant entre les termes.
L’article est organisé comme suit. La prochaine section est dédiée aux notions clés concernant le classifieur naı̈f de Bayes ainsi qu’aux approches existantes,
pour la réduction de l’espace par regroupement de
mots. La partie 3 présente les motivations de l’approche par regroupement non-disjoint ainsi que le modèle
probabiliste général de la méthode. Les parties 4 et
5 traitent succéssivement de l’algorithme DDOC puis
des expérimentations effectuées sur les corpus traditionels : 20Newsgroup et Reuters-21578. Enfin, un bilan de
l’étude est proposé avant de conclure et de présenter les
perspectives de ce travail.
2 CLASSIFICATION DE DOCUMENTS ET REGROUPEMENT D’ATTRIBUTS
Le processus de regroupement d’attributs, pour
l’indexation des documents, a été initié par Baker
et
McCallum
[Baker and McCallum, 1998].
Ils proposent une approche basée sur une analyse distributionelle des mots apparaissant dans le
corpus d’entraı̂nement [Pereira et al., 1993]. Plusieurs autres approches, fortement inspirées de cette
étude préliminaire, ont été proposées par la suite
[Slonim and Tishby, 2000, Dhillon et al., 2003]. Dans
cette section, nous présentons d’abord le classifieur
naı̈f de Bayes dans le cadre de la classification de
documents, puis nous comparons deux algorithmes de
regroupements de mots : Agglomerative Distributional Clustering (ADC) [Baker and McCallum, 1998]
et Information-Theoretic Divisive Clustering (ITDC)
[Dhillon et al., 2003].
Nous utiliserons les notations suivantes : le corpus d’entraı̂nement est noté D = {d1 , . . . , dn }, le vocabulaire
extrait de D est noté V = {w1 , . . . , wl } et C =
{c1 , . . . , cm } correspond aux étiquettes de classes des documents.
2.1 Le classifieur naı̈f de Bayes pour la classification
de documents
Le classifieur naı̈f de Bayes est connu pour ses performances en classification automatique de documents. Il
s’agit d’apprendre, pour chaque classe, un modèle de
génération des documents de la classe. Ces modèles sont
définis par les distributions p(di |cj ; θ) exprimant le probabilité a priori que le document di soit généré par la
classe cj (1). Dans cette définition, θ correspond aux paramètres à éstimer à partir d’un corpus d’entraı̂nement.
p(di |cj ; θ) = p(|di |)
Y
{wt ∈di }
p(wt |cj ; θ)
(1)
Cette expression est obtenue sous l’hypothèse “naı̈ve”
d’indépendance entre les mots (notament sur l’ordre
d’apparition des mots). On sait que cette hypothèse
n’est pas vérifiée, cependant les études précédentes
montrent, qu’en pratique, les performances du classifieur naı̈f de Bayes pour la classification de documents
restent bonnes sous cette hypothèse d’indépendance
[Domingos and Pazzani, 1996]. Dans l’équation (1),
p(wt |cj ; θ) est estimée sur le corpus d’entraı̂nement via
la règle de succession de Laplace (2), avec N (wt , di )
désignant le nombre d’occurrences du mots wt dans le
document di :
1+
p(wt |cj ; θ) ≈
X
{di ∈cj }
l+
X
- Ordonner V via l’information mutuelle avec la variable
de classe : I(w; C) (cf. eq.9)
N (wt , di )
X
N (ws , di )
(2)
{ws ∈V } {di ∈cj }
Pour classer un nouveau document d, on observe la probabilité a priori p(cj |d; θ). Ainsi, la classe prédite pour
le document d sera celle qui maximize cette probabilité,
calculée par la règle de Bayes (3) :
p(cj |d; θ) =
p(cj |θ)p(d|cj ; θ)
p(d|θ)
(3)
Par étapes succéssives de transformations et simplifications mathématiques1 sur l’équation (3), le classifieur de
Bayes peut être reformulé ainsi :
c∗ (d) = arg max
{cj ∈C}
+
X
{wt ∈V }
log p(cj |θ)
|d|
Dans cette dernière équation, p(cj |θ) est donnée par le
rapport du nombre de documents de étiquetés cj dans D
sur le nombre total de documents dans D.
Dans le cadre du regroupement de mots, on note W =
{W1 , . . . , Wp } le résultat d’un partitionnement du vocabulaire V , tel que chaque cluster Wi est un sous ensemble
de V et l’union de tous les clusters de W est égale à V .
Afin de décrire les documents par des groupes de mots,
plutôt que par des mots, les equations (1) et (4) doivent
être modifiées en remplaçant w par W . Les expressions
p(Ws |cj ; θ) et p(Ws |d) sont définies par les équations
suivantes, dans le cas classique d’un regroupement en
classes disjointes (on dit aussi que W est une partition
stricte de V ) :







 p(W |d) =
s
X
N (Ws , di )
{di ∈cj }
X
X
N (Wk , di )
{Wk ∈W} {di ∈cj }
(5)
N (Ws ,d)
|d|
P
où N (Wk , d) =
{wt ∈Wk } n(wt , d). Dans notre étude
ce modèle doit être adapté au cas de classes nondisjointes (on parle aussi de pseudo-partition). Nous
présenterons ce formalisme d’adaptation en section 3.
2.2 L’algorithme de clustering ADC
L’algorithme ADC (Agglomerative Distributional Clustering) a été proposé en 1998 par Baker et McCallum
[Baker and McCallum, 1998]. Ce travail est basé sur la
1 Pour
- Tant que tous les mots de V ne sont pas intégrés :
- Fusionner les deux clusters les plus similaires
(k − 1 clusters restant),
- Générer un nouveau cluster (singleton constitué du
mot suivant dans V ordonné).
TAB . 1 – L’algorithme de clustering ADC
théorie distributionnelle initiée en 1993 par Pereira et al.
[Pereira et al., 1993]. Chaque mot wt de V est caractérisé
par deux composantes : la distribution du mot sur les
classes {p(cj |wt )}j=1...m et la probabilité d’apparition
du mot p(wt ). Ces descriptions sont apprises à partir du
corpus d’entraı̂nement.
(4)
p(wt |d) log p(wt |cj ; θ)








 p(Ws |cj ; θ) =
- Initialiser k clusters : k singletons correspondant aux k
premiers mots de V suivant l’ordre établi
plus de détails, voir [Dhillon et al., 2003]
p(cj |wt ) =
X
δ(wt , di )
{di ∈cj }
X
(6)
δ(wt , di )
{di ∈D}
où δ(wt , di ) vaut 1 si wt est présent dans di et 0 sinon.
L’objectif est de regrouper ensemble les mots jouant des
rôles similaires dans classification des documents. Une
mesure adaptée doit être utilisée afin d’évaluer la proximité entre deux mots. La divergence de Kullback-Leibler
(KL), permet de comparer deux distributions :
D(p(C|wt )||p(C|ws )) =
m
X
j=1
p(cj |wt ) log
p(cj |wt )
(7)
p(cj |ws )
Cependant cette mesure n’est pas symétrique et n’est pas
définie dans le cas où p(cj |ws ) vaut 0. En pratique on
utilise plutôt la “divergence de KL à la moyenne” :
d(wt , ws ) = πt .D(p(C|wt )||p(C|wt ∨ ws ))
+πs .D(p(C|ws )||p(C|wt ∨ ws ))
(8)
Dans l’équation (8), p(C|wt ∨ ws ) est définie par
πt
πs
p(C|wt ) +
p(C|ws )
πt + π s
πt + π s
où πt = p(wt ).
L’algorithme de clustering, présenté dans le tableau
TAB.1, procède par fusions succéssives des deux plus
proches clusters, en utilisant la mesure de proximité
définie précédemment (8).
Cet algorithme est incrémental, il est donc adapté au
traitement d’ensembles importants de données, avec une
complexité en O(lk 2 m) avec l, k et m correspondant respectivement au nombre de mots, clusters et classes.
2.3 L’algorithme de clustering ITDC
L’algorithme ITDC (Information Theoretic Divisive
Clustering), présenté dans [Dhillon et al., 2003], est basé
sur l’optimisation d’un critère global d’information
mutuelle, inspiré de la méthode Information Bottleneck [Slonim and Tishby, 2000]. Soient C la variable de
classe, V le vocabulaire et W une partition stricte de V ,
l’information perdue par le passage de V à W, comme
descripteurs des documents, peut être évaluée par la
différence I(C; V ) − I(C; W). L’information mutuelle
entre deux variables aléatoires X et Y est définie par :
I(X; Y ) =
X
p(x)p(y|x) log
x∈X,y∈Y
p(y|x)
p(y)
(9)
Le tableau TAB.2 présente l’algorithme ITDC. Cette
méthode de regroupement procède de façon comparable
à l’algorithme bien connu des k-moyennes : à partir
d’une partition initiale, les objets sont itérativement réaffectés de façon à optimiser un critère de qualité. Ici,
ce critère correspond à la fonction précédemment définie
(I(C; V )−I(C; W)) et la phase d’initialisation consiste à
construire des clusters “typiques” des classes cibles avant
de les fusionner ou de les scinder afin d’obtenir le nombre
désiré de groupes. La partition finale correspond donc à
un optimum local pour la fonction de qualité. La complexité de l’algorithme ITDC est en O(lkmτ ) avec l, k,
m et τ correspondant respectivement au nombre de mots,
clusters, classes et itérations.
Entrée : le nombre désiré de clusters k et V , le vocabulaire
à traiter.
- Initialisation : m clusters (pour m classes) tels que
Wi = {wt ∈ V |ci = arg max p(cj |wt )}
j
- si k > m : scinder arbitrairement chaque cluster en
bk/mc clusters (partie entière),
- si k < m : fusionner les clusters jusqu’à en obtenir k
- Tant que la variation de la fonction de qualité
I(C, V ) − I(C, W) est > ε (fixé),
- pour chaque cluster Wj , calculer p(Wj ) et p(C|Wj ),
- pour chaque mot wt ∈ V , rechercher son plus proche
cluster : j ∗ (wt ) = arg min D(p(C|wt )||p(C|Wi ))
i
puis ré-affecter wt au cluster Wj ∗
- calculer l’information mutuelle I(C; W) avec
les nouveaux clusters
Sortie : le partitionnement stricte W de V en k clusters.
TAB . 2 – L’algorithme de clustering ITDC
3 PSEUDO-PARTITIONNEMENT : MOTIVATIONS ET CADRE PROBABILISTE
Considérons un corpus d’entraı̂nement où chaque document est étiqueté par l’une des deux classes : A ou B.
Supposons que le vocabulaire V , extrait de ce corpus,
s’organise en deux sous-ensembles W1 et W2 , plus un
mot ws tels que :
– ∀wi ∈ W1 , p(cA |wi ) ≈ 1 et p(cB |wi ) ≈ 0,
– ∀wi ∈ W2 , p(cB |wi ) ≈ 0 et p(cB |wi ) ≈ 1,
– p(cA |ws ) ≈ p(cB |ws ) ≈ 12 .
Autrement dit, les mots de W1 apparaisent quasiexclusivement dans les documents de classe A, les mots
de W2 quasi-exclusivement dans les documents de classe
B, tandis que le mot ws apparaı̂t équitablement dans les
deux classes de documents A et B.
Un partitionnement stricte de V , conduira vraissemblablement à l’un des deux schémas suivants : P1 = {W1 ∪
{ws }, W2 } ou P2 = {W1 , W2 ∪ {ws }}.
Supposons à présent que l’on cherche à classer un nouveau document d, caractérisé par la présence de ws uniquement, parmi les mots de V .
La caractérisation d’un groupe de mot W ⊂ V est dérivée
de la caractérisation des mots qui le composent par :
P

 p(W ) = wt ∈W p(wt )
(10)
P

t)
p(cj |W ) = wt ∈W p(w
p(c
|w
)
j
t
p(W )
Si la partition P1 a été établie, on a p(cj |d) = p(cj |W1 ∪
ws ). Par le système d’équations (10) et les hypothèses de
distributions des mots sur les classes, on en déduit que
p(cA |d) p(cB |d) d’où l’affectation de d à la classe
A. En revanche, si c’est la partition P2 qui est établie, le
document d sera classé dans B.
En généralisant cet exemple, si beaucoup de mots “ambigus” apparaissent dans un document test, le biais induit par un partitionnement strict du vocabulaire peut entraı̂ner une perte d’information importante dans l’indexation des documents et ainsi produire des erreurs de classification en conséquence.
Ce phénomène peut s’expliquer également dans un cadre
sémantique. Par exemple, si l’on considère que les deux
classes A et B correspondent à des documents portant sur les thématiques respectives de la “justice” et de
la “gastronomie”. Ces deux thématiques semblent bien
différentes puisqu’elles possèdent chacune leur propre
terminologie. Supposons alors que les deux ensembles de
mots suivants ont été extraits du corpus d’entraı̂nement :
W1 = {Court Suprême, Magistrat, Citoyen, Avocat,
... } et W2 = { Restaurant, Salade, Asperge, Avocat,
...}. Le mot ws =“avocat” est polysémique et appartient
aussi bien à la thématique de la “justice”2 qu’à celle de
la “gastronomie”3 . Dans la construction d’une partition
stricte du vocabulaire extrait, ws sera inclu dans l’un des
2 Par
3 Par
cats.
exemple Le réquisitoire de l’avocat était brillant.
exemple Ce restaurant propose une délicieuse salade d’avo-
deux groupes W1 ou W2 exclusivement, ce qui revient
à conserver l’un des deux sens observés de ce mots et à
ignorer le second.
L’exemple précédent traite d’une situation extrême. Cependant on peut facilement constater que beaucoup de
termes sont partagés par plusieurs documents, dans des
contextes sémantiques distincts, avec différents degrés
d’implication.
Dans cette étude nous proposons de supprimer la
contrainte liée à la construction de partitions strictes,
en utilisant un algorithme de clustering autorisant les
recouvrements entre les clusters. Les clusters obtenus
forment alors ce que l’on appelle une pseudo-partition
de l’ensemble des objets. Ces intersections entre clusters
nécessitent une adaptation du modèle probabiliste défini
jusqu’alors. Le système proposé en (10) se redéfini par :
P

 p(W ) = {wt ∈V } p(W |wt )p(wt )

p(c|W ) =
1
p(W )
P
{wt ∈V }
p(W |wt )p(wt )p(c|wt ).
(11)
Dans (11), le terme p(W |wt ) correspond au degrés d’implication du mot wt dans le cluster W . Dans le cas d’un
partitionnement stricte, chaque objet appartient à un seul
cluster, p(W |wt ) peut alors s’écrire :
p(W |wt ) =
1 si wt ∈ W
0 sinon.
(12)
Lorsqu’un objet est partagé par plusieurs clusters, deux
possibilités sont envisageables. La première consiste à
dupliquer l’objet et à le considérer comme différent selon
qu’il est contenu dans tel ou tel cluster. Cette méthode
revient en quelquesorte à introduire de nouveaux objets dans le système (un mot par variante sémantique).
Cependant, cette approche entraı̂ne une modification du
système global et nécessite de recalculer l’ensemble de
ses paramètres (p(wt ), p(cj |wt ), etc.). La seconde possibilité est celle que nous retenons ; elle consiste à partager
l’objet équitablement selon les clusters auxquels il appartient. Nous proposons alors la pondération suivante :
p(W |wt ) =
1
n
si wt ∈ W
0 sinon.
(13)
Dans cette définition, n correspond au nombre de clusters
dans lesquels l’objet wt apparaı̂t.
4 L’ALGORITHME DDOC
Dans cette section nous présentons l’algorithme DDOC
(Distributional Divisive Overlapping Clustering) permettant de structurer le vocabulaire V en clusters nondisjoints de mots (ou pseudo partition). Cet algorithme se
divise en deux principales étapes : d’abord la construction
de “noyaux recouvrants” à partir d’un sous-ensemble du
vocabulaire, puis une phase itérative de multi-affectations
des mots à ces “noyaux recouvrants”.
Entrée : V le vocabulaire extrait du corpus d’entraı̂nement
avec (|V | = l),
M un paramètre fixé ∈ {1 . . . l},
τ un nombre d’itérations fixé,
- Ordonner V via l’information mutuelle avec la variable
de classe : I(w; C),
- Appliquer PoBOC sur les M premiers mots de V
relativement à l’ordre établi, (formation de k clusters
non-disjoints, (W1 , . . . , Wk ) avec k M )
- Pour chaque cluster Wi , calculer p(Wi ) et p(C|Wi ),
à l’aide de (11) et (13),
- Pour chaque mot wt non traité :
- Calculer pour chaque cluster Wi : dKL (wt , Wi ),
(avec dKL donné par (8))
- Affecter wt aux clusters les plus proches (TAB. 4),
- Tant que les clusters sont modifiés et moins de τ iterations :
- Pour chaque cluster Wi calculer p(Wi ) et p(C|Wi ),
- Pour chaque mot wt ∈ V :
- Calculer pour chaque cluster Wi :
dKL (p(C|wt )||p(C|Wi )),
- Affecter wt aux clusters les plus proches (TAB. 4).
Sortie : Une pseudo-partition optimisée (W1 , . . . , Wk ).
TAB . 3 – L’algorithme DDOC
Pour la première étape nous faisons appel à l’algoritme PoBOC [Cleuziou et al., 2004] avec, pour mesure
de proximité, la divergence de KL à la moyenne (cf. section 2.2). L’algorithme général DDOC est détaillé dans
le tableau TAB.3, puis nous précisons dans le tableau
TAB.4, la phase de multi-affectations (inspirée de son
équivalent dans l’algorithme PoBOC).
La phase d’ordonnancement des mots par information mutuelle (I(w; C)) permet de constituer un “bon”
échantillon de V . Cette technique est en effet utilisée pour
la phase d’initialisation dans l’algorithme ADC et indirectement dans la méthode ITDC.
Les “noyaux recouvrants”4 sont le résultat d’une étape
de pré-clustering via PoBOC. Cette initialisation diffère
de l’approche ADC, qui débute avec uniquement des singletons, et de l’algorithme ITDC qui scinde ou fusionne
“arbitrairement” une première partition de V afin d’obtenir le nombre désiré de clusters. Parceque les noyaux
sont par définition non-disjoints et en nombre non prédéterminé, on peut supposer que cette initialisation est à
la fois plus précise et plus “objective”.
L’étape itérative de ré-affectations multiples utilisée dans
DDOC, est assez proche de celle proposée dans ITDC.
4 On
appelle “noyaux recouvrants” les clusters non-disjoints obtenus
par l’algorithme PoBOC
Entrée : wt le mot à affecter parmi {W1 , . . . , Wk },
f ∈]0; 1] un paramètre fixé,
- Ordonner les clusters par similarité décroissante avec
wt , en utilisant dKL (p(C|wt )||p(C|Wi )),
{W1 , . . . , Wk } → {W̃1 , . . . , W̃k }
- Affecter wt à W̃1 (plus proche cluster de wt ),
- Pour chaque cluster W̃i (i > 1) : affecter wt à W̃i ssi i)
et ii) sont vérifiées :
i) wt a été affecté à W̃i−1 ,
ii) dKL (wt , W̃i ) <
f.(dKL (wt , W̃i+1 ) − dKL (wt , W̃i−1 )) + dKL (wt , W̃i−1 ).
Sortie : Un ensemble de classes {W̃1 , . . . , W̃i }
où wt est affecté.
TAB . 4 – La procedure de multi-affectations
Cependant, on note deux différences majeures :
– l’utilisation de la divergence de KL à la moyenne plutôt
que la divergence simple de KL,
– un processus de multi-affectations plutôt qu’une affectation simple.
La première différence s’explique par les bonnes propriétés de la mesure choisie (cf. section 2.2). Enfin, c’est
le processus de multi-affectations qui permet à un mot
d’appartenir à plusieurs classes, l’algorithme de multiaffectations est présenté dans le tableau TAB.4. Dans
cette description, le paramètre f peut être considéré
comme un fuzzifieur tel que : pour f = 0, les affectations sont simples (affectation au plus proche cluster) et le
nombre d’affectations pour un même mot augmente avec
f.
La complexité de l’algorithme DDOC est en O(lkmτ )
avec l, k, m et τ correspondant respectivement aux
nombres de mots, clusters, classes et itérations.
5 RÉSULTATS EXPÉRIMENTAUX
Nous présentons dans cette section les premiers résultats
expérimentaux utilisant un algorithme de clustering nondisjoint, pour réduire la dimension de l’espace de description des documents. Une étude comparative est effectuée sur deux corpus classiques, faisant référence dans
le domaine de la classification de documents : le corpus
20Newsgroup [Lang, 1995] et le corpus Reuters-21578
(http ://www.research.att.com/∼lewis).
20Newsgroup est un corpus constitué de 18941 articles.
Il s’agit d’échanges entre personnes dans le cadre d’un
forum de discussions5 . Les documents sont organisés
autour de 20 thématiques (groupes de discussions) qui
5 Nous
utilisons la version “by date” de ce corpus, disponnible à
l’adresse http ://www.ai.mit.edu/∼jrennie/20Newsgroups/
constituent alors les 20 classes à apprendre. Deux souscorpus sont prédéfinis : l’ensemble des documents d’entraı̂nement (60%) et de test (40%). A partir du corpus
d’entraı̂nement, 22183 lemmes sont extraits par lemmatisation et suppression des mots vides (utilisation d’une
stoplist) et des mots apparaissant dans moins de trois documents.
Le corpus Reuters-21578 se divise en 9603 documents pour l’ensemble d’entraı̂nement et 3299 documents tests, en utilisant la collection modifiée “ModApte” [Apte et al., 1994]. Ces documents sont organisés autour de 118 classes non-exclusives (un document peut être
étiqueté par plusieurs classes différentes). Par un processus similaire au précédent, 7680 lemmes sont extraits du
corpus d’entraı̂nement.
Les résultats présentés en figures FIG.1 et FIG.2 sont
obtenus par apprentissage sur les sous-corpus d’entraı̂nement puis par évaluation sur les sous-corpus tests.
Le taux de bonne classifiation est obtenu par le rapport du
nombre de documents tests pour lesquels la classe prédite
est “correcte” sur le nombre total de documents tests.
Pour le corpus Reuters-21578, les documents étant possiblement étiquetés par plusieurs classes, une classe prédite
sera considérée “correcte” si elle fait partie des étiquettes
proposées pour ce document. Pour chacun des deux corpus nous proposons d’observer, dans un premier temps,
l’influence des intersections entre clusters de mots, puis
dans un second temps de comparer l’algorithme DDOC
avec les deux autres méthodes de clustering présentées
dans cette étude : ADC et ITDC. Notons que pour toutes
ces expérimentations, c’est le classifieur naı̈f de Bayes,
présenté en section 2.1, qui est utilisé pour classer les documents.
Les pourcentages de recouvrements entre clusters sont
donnés par le calcul suivant : (Naf f − Nmots )/Nmots
où Naf f correspond au nombre total d’affectations des
mots aux “noyaux recouvrants” (cf. section 4) et N mots à
la taille du vocabulaire. Par exemple, si le pourcentage de
recouvrements est de 25%, cela signifie qu’en moyenne,
1 mot sur 4 est partagé par deux clusters.
Dans les figures supérieures, chaque série de points correspond à une initialisation du paramètre M dans l’algorithme DDOC et donc à un nombre de clusters k. Pour
une même série (M fixé), chaque point correspond à une
instanciation du fuzzifieur f entre 0.0 et 0.5. Dans les
figures inférieures, chaque point d’une même série correpond à une instanciation de M . Par exemple : si pour
M = 50 on obtient k = 11 par l’algorithme DDOC, on
compare DDOC pour M = 50 avec ADC et ITDC pour
k = 11 (à nombre de clusters identique).
Dans la mesure où le principal objectif du clustering est
de réduire le plus possible l’espace de description des documents, nous nous sommes attachés ici à étudier le comportement des classifieurs induits par les différentes approches de clustering, pour un nombre limité de clusters.
Ainsi, dans les expérimentations, ce nombre de clusters
varie entre 2 et environ 150.
Sur les deux corpus on observe (figures supérieures)
l’influence des intersections entre clusters sur les per-
k=8
k=12
k=14
k=22
k=36
k=82
k=232
80
k=5
k=6
k=7
k=9
k=12
k=14
k=18
k=36
k=58
k=76
84
82
70
60
% Accuracy
% Accuracy
80
78
76
50
74
40
72
30
0
5
10
15
20
25
30
35
70
40
0
5
10
15
% Overlapping
BA
X TU R
ƒ‚
w
~€y
 ~~
X S
9
:2
>=
=
<
9
12
V
S
}
W VU R
z
W R
W TU R
vw
rs
tu
W S
RVU R
RR
VTU R
xy
34
40
VR
{s
zw
56
35
VVU R
| s}{
96
78
z
z
; 2<:
30
YZY[\] ^ _`
a bc
d"Y\
e fY\
X R
=?8
25
X VU R
!"
# $
9
@6
20
% Overlapping
R
TU R
%'&(
)* +
,- ./0,
F IG . 1 – Expérimentations sur le corpus 20Newsgroup,
taux de bonne classification sur le corpus test. (haut) Influence de la quantité de recouvrement entre classes, par
DDOC. (bas) Comparaisons entre ADC, ITDC et DDOC.
RS
C
D
E
F
G
H
IKJ
ILD
gihj
kl mno pq0n
INM
COF
EPM
GQF
INHE
F IG . 2 – Expérimentations sur le corpus Reuters-21578,
taux de bonne classification sur le corpus test. (haut) Influence de la quantité de recouvrement entre classes, par
DDOC. (bas) Comparaisons entre ADC, ITDC et DDOC.
formances du classifieur induit. Quand le pourcentage
d’intersections entre clusters augmente, dans un premier
temps le classifieur gagne en performance, puis dans un
deuxième temps il perd en efficacité. Les meilleures performances sont obtenues pour un taux de recouvrements
d’environ 10 à 20% pour les deux corpus. Ces résultats
valident la principale hypothèse de ce travail, concernant
l’intérêt de proposer une pseudo-partition plutôt qu’une
partition stricte du vocabulaire pour réduire la dimension
de l’espace de description des documents.
Les comparaisons effectuées avec les méthodes de regroupement d’attributs exitantes (figures inférieures) sont
également encourageantes. Sur les deux corpus, l’algorithme DDOC induit un classifieur meilleur que celui
induit par ADC. Concernant l’algorithme ITDC, si la
comparaison à ADC sur 20Newsgroup est concluante
[Dhillon et al., 2003], cette même comparaison n’avait
pas encore était effectuée sur le corpus Reuters-21578,
réputé “difficile”. Or nous montrons ici que l’algorithme
DDOC est comparable à ITDC sur le corpus 20Newsgroup et sensiblement meilleur sur le second corpus.
6 CONCLUSION ET PERSPECTIVES
Dans cet article nous proposons une nouvelle approche
pour le regroupement d’attributs dans le cadre de la
classification automatique de documents. L’algorithme
DDOC (Distributional Divisive Overlapping Clustering)
permet d’organiser le vocabulaire extrait du corpus d’entraı̂nement en une pseudo-partition, telle que chaque mot
peut appartenir à plusieurs clusters. Cette approche, motivée sur un aspect sémantique, procède par structuration
d’un sous-ensemble du vocabulaire (pré-clustering) suivit
d’une étape de multi-affectations des mots relativement
au pré-clustering.
La méthode DDOC est alors comparée aux algorithmes
existant dans le domaine, à savoir ADC (Agglomerative
Distributional Clustering) et ITDC (Information Theoretic Divisive Clustering). Sur les deux corpus 20Newsgroup et Reuters-21578, les expérimentations permettent
d’apprécier la qualité des nouveaux attributs générés par
DDOC et de conclure sur l’intérêt de proposer une organisation plus souple des mots, en classes non-disjointes.
Dans la suite de ce travail nous étudierons de façon
formelle, l’impact des intersections entre clusters sur
le critère d’information mutuelle. Nous proposerons
également une phase d’apprentissage permettant d’ajuster automatiquement le paramètre fuzzifieur (f ) relativement au corpus d’entraı̂nement. Enfin, nous envisagerons
d’utiliser d’autres méthodes de classification (e.g. SVM).
BIBLIOGRAPHIE
[Aas and Eikvil, 1999] Aas, K. and Eikvil, L. (1999).
Text categorisation : A survey.
[Apte et al., 1994] Apte, C., Damerau, F., and Weiss,
S. M. (1994). Automated learning of decision rules for
text categorization. Information Systems, 12(3) :233–
251.
[Baker and McCallum, 1998] Baker, L. D. and McCallum, A. K. (1998). Distributional clustering of words
for text classification. In Proceedings of SIGIR-98, 21st
ACM International Conference on Research and Development in Information Retrieval, pages 96–103, Melbourne, AU. ACM Press, New York, US.
[Cleuziou et al., 2004] Cleuziou, G., Martin, L., and
Vrain, C. (2004). Poboc : an overlapping clustering algorithm. application to rule-based classification and textual
data. In de Mántaras, R. L. and L. Saitta, I. P., editors,
ECAI, pages 440–444, Valencia, Spain. Proceedings of
the 16th European Conference on Artificial Intelligence.
[Deerwester et al., 1990] Deerwester, S. C., Dumais,
S. T., Landauer, T. K., Furnas, G. W., and Harshman,
R. A. (1990). Indexing by latent semantic analysis.
Journal of the American Society of Information Science,
41(6) :391–407.
[Dhillon et al., 2003] Dhillon, I. S., Mallela, S., and Kumar, R. (2003). A divisive information theoretic feature clustering algorithm for text classification. J. Mach.
Learn. Res., 3 :1265–1287.
[Domingos and Pazzani, 1996] Domingos, P. and Pazzani, M. J. (1996). Beyond independence : Conditions
for the optimality of the simple bayesian classifier. In
International Conference on Machine Learning, pages
105–112.
[Forman, 2003] Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. J. Mach. Learn. Res., 3 :1289–1305.
[Lang, 1995] Lang, K. (1995). NewsWeeder : learning to
filter netnews. In Proceedings of the 12th International
Conference on Machine Learning, pages 331–339. Morgan Kaufmann publishers Inc. : San Mateo, CA, USA.
[Pereira et al., 1993] Pereira, F. C. N., Tishby, N., and
Lee, L. (1993). Distributional clustering of english
words. In Meeting of the Association for Computational
Linguistics, pages 183–190.
[Roche and Kodratoff, 2003] Roche, M. and Kodratoff,
Y. (2003). Utilisation de LSA comme première étape
pour la classification des termes d’un corpus spécialisé.
In Actes (CD-ROM) de la conférence MAJECSTIC’03
(MAnifestation des JEunes Chercheurs dans le domaine
STIC).
[Slonim and Tishby, 2000] Slonim, N. and Tishby, N.
(2000). Document clustering using word clusters via the
information bottleneck method. In Research and Development in Information Retrieval, pages 208–215.
Téléchargement