Regroupement de mots en groupes non-disjoints pour la classification de documents Guillaume Cleuziou LIFO - Université d’Orléans BP 6759 - 45067 Orléans cedex 02 - France [email protected] Résumé : Cet article traite du problème de réduction de dimension de l’espace de description pour la classification de documents. Ce domaine d’étude est dominé par trois principales approches de réduction : la sélection des attributs à l’aide de mesures de gain d’information, le re-paramétrage de l’espace par des techniques telles que LSI (Latente Semantic Indexing) et, plus récemment, le regroupement d’attributs par l’utilisation d’un algorithme de clustering adapté. Nous nous intéressons ici à cette dernière approche et étudions l’intérêt d’intégrer une méthode de regroupement autorisant les recouvrements entre classes plutôt qu’un algorithme constituant des classes disjointes. Dans cet article l’algorithme DDOC (Distributional Divisive Overlapping Clustering) permettant de générer des classes non-disjointes de mots est présenté puis comparé aux deux approches suivantes : Agglomerative Distributional Clustering (ADC) [Baker and McCallum, 1998] et Information Theoretic Divisive Clustering (ITDC) [Dhillon et al., 2003]. Globalement, on observe que les recouvrements permettent d’améliorer la qualité des nouveaux attributs par rapport aux classes disjointes, les expérimentations effectuées sur les corpus 20Newsgroup et Reuters-21578 conduisent à des résultats encourageants. Mots-clés : Regroupement d’attributs, classification de documents, regroupement de mots, clustering nondisjoint, apprentissage. 1 INTRODUCTION La classification automatique de documents est un problème important, à l’intersection de deux domaines de recherche majeurs : l’Apprentissage Automatique (AA) et la Recherche d’Information (RI). Etant donné un modèle de classification, le problème consiste à apprendre les paramètres de ce modèle, à partir des observations issues d’un corpus d’entraı̂nement, constitué de documents étiquetés (document, classe). Ce modèle, paramétré, permet alors de prédire la classe d’appartenance d’un nouveau document test. La tâche de classification de documents est donc un problème d’apprentissage supervisé trouvant ses principales applications en RI : le routage d’information en temps-réel (emails, notes de service, etc.), le filtrage d’information (spams, etc.) ainsi que l’identification de classes sémantiques, afin d’intégrer une dimension thématique au processus de RI. La tâche de classification automatique de documents se décompose en trois étapes : (1) l’extraction d’attributs pertinents, (2) la phase d’apprentissage à partir d’un corpus d’entraı̂nement et (3) l’évaluation du classifieur sur un corpus test. Ces trois étapes constituent chacune un sous-domaine de recherche à part entière [Aas and Eikvil, 1999]. La phase d’apprentissage (2) est généralement assurée par des algorithmes de classification tels que le classifieur naı̈f de Bayes ou encore les Machines à Supports Vectoriels (SVM). La phase d’évaluation (3) nécessite le recours aux mesures de performance telles que la précision, le rappel, le Break-even point ou encore la F-measure. Notre étude se concentre sur le problème de l’extraction d’attributs pertinents (1), étape initiale et déterminante pour l’ensemble du processus de classification. L’extraction d’attributs consiste à rechercher un nouvel ensemble d’attributs (aussi appelés variables, traits ou descripteurs) dérivé de la description initiale des données, et conservant un maximum d’information sur ces données. Dans le contexte de la classification, les documents sont généralement assimilés à des “sacs de mots” de telle sorte que le vocabulaire apparaissant dans le corpus d’entraı̂nement constitue l’ensemble initial d’attributs (1 mot = 1 attribut). La taille de l’espace de description est alors très importante et donc limitative (en terme de complexité) pour l’utilisation de techniques de classification classiques telles que le classifieur naı̈f de Bayes, les approches SVM ou encore les arbres de décision. De plus, beaucoup de mots composant ce vocabulaire sont peu discriminants et peu pertinents, ajoutons à cela le fait que la matrice documents × mots est très éparse (beaucoup de 0). Par conséquent, le problème d’extraction d’attributs pertinents pour la classification de documents est fortement lié à la nécessité de réduire la dimension et d’améliorer la pertinence de l’espace de description des documents. Trois solutions ont été proposées jusqu’alors : la sélection, le re-paramétrage et le regroupement des attributs. L’approche par sélection consiste à définir un ensemble d’attributs permettant de conserver un maximum d’information relativement à la description initiale des données. Différentes méthodes de sélection ont été proposées et comparées parmi lesquelles on peut citer le Gain d’Information, l’Information Mutuelle ou encore la mesure du χ2 (voir [Forman, 2003] pour une étude comparative). Ces mesures reposent, généralement, sur l’étude des dépendances conditionnelles entre les attributs (mots) et les classes. Le re-paramétrage de l’espace des attributs consiste, en revanche, à définir un nouvel ensemble d’attributs, chaque nouvel attribut étant construit par combinaison linéaire des attributs initiaux. Cette méthode est mieux connue sous le nom de Latente Semantic Indexing (LSI) [Deerwester et al., 1990, Roche and Kodratoff, 2003] dans le cadre de l’application à la classification de documents. L’ensemble des attributs initiaux est utilisé, la réduction de l’espace s’opère alors par élimination des dimensions peu pertinentes (analyse en composantes principales ACP). Dans la plupart des études comparatives, cette approche de réduction induit des taux de bonnes classification meilleurs que la sélection d’attributs. Enfin, une technique de réduction plus récente, puisque introduite en 1998 par Baker et McCallum [Baker and McCallum, 1998], consiste à regrouper les attributs mots, afin d’indexer les documents à partir de groupes de mots. Il s’agit alors de construire une partition du vocabulaire, maximisant l’information conservée. Dans cette application, deux techniques de partitionnement se dégagent : l’algorithme ADC (Agglomerative Distributional Clustering) [Baker and McCallum, 1998], basé sur un formalisme distributionnel initié par [Pereira et al., 1993], et ITDC (Information Theoretic Divisive Clustering) [Dhillon et al., 2003]. Le regroupement d’attributs semble aujourd’hui être une méthode de réduction prometteuse, conduisant à une meilleure indexation des documents que les approches précédentes de sélection ou de re-paramétrage. L’approche de réduction par re-paramétrage peut également être interprétée dans ce contexte, comme une méthode de partitionnement flou. Par exemple, la méthode LSI aboutie à un ensemble d’attributs tels que chaque nouvel attribut est une combinaison linéaire des attributs de départ. En ce sens, ces nouveaux attributs peuvent donc être considérés comme des clusters “flous” définis par un ensemble pondéré de mots. Dans cet article, nous postulons qu’un compromis entre ces deux dernières techniques (partitionnement “stricte” et “flou”) pourrait conduire à des attributs de meilleure qualité. L’algorithme DDOC (Distributional Divisive Overlapping Clustering) permet de constituer des groupes non-disjoints de mots, tels que chaque mot peut appartenir à un ou plusieurs clusters (pseudo-partition). Ce type de schéma est motivé par une vision sémantique des relations (complexes et ambigües) existant entre les termes. L’article est organisé comme suit. La prochaine section est dédiée aux notions clés concernant le classifieur naı̈f de Bayes ainsi qu’aux approches existantes, pour la réduction de l’espace par regroupement de mots. La partie 3 présente les motivations de l’approche par regroupement non-disjoint ainsi que le modèle probabiliste général de la méthode. Les parties 4 et 5 traitent succéssivement de l’algorithme DDOC puis des expérimentations effectuées sur les corpus traditionels : 20Newsgroup et Reuters-21578. Enfin, un bilan de l’étude est proposé avant de conclure et de présenter les perspectives de ce travail. 2 CLASSIFICATION DE DOCUMENTS ET REGROUPEMENT D’ATTRIBUTS Le processus de regroupement d’attributs, pour l’indexation des documents, a été initié par Baker et McCallum [Baker and McCallum, 1998]. Ils proposent une approche basée sur une analyse distributionelle des mots apparaissant dans le corpus d’entraı̂nement [Pereira et al., 1993]. Plusieurs autres approches, fortement inspirées de cette étude préliminaire, ont été proposées par la suite [Slonim and Tishby, 2000, Dhillon et al., 2003]. Dans cette section, nous présentons d’abord le classifieur naı̈f de Bayes dans le cadre de la classification de documents, puis nous comparons deux algorithmes de regroupements de mots : Agglomerative Distributional Clustering (ADC) [Baker and McCallum, 1998] et Information-Theoretic Divisive Clustering (ITDC) [Dhillon et al., 2003]. Nous utiliserons les notations suivantes : le corpus d’entraı̂nement est noté D = {d1 , . . . , dn }, le vocabulaire extrait de D est noté V = {w1 , . . . , wl } et C = {c1 , . . . , cm } correspond aux étiquettes de classes des documents. 2.1 Le classifieur naı̈f de Bayes pour la classification de documents Le classifieur naı̈f de Bayes est connu pour ses performances en classification automatique de documents. Il s’agit d’apprendre, pour chaque classe, un modèle de génération des documents de la classe. Ces modèles sont définis par les distributions p(di |cj ; θ) exprimant le probabilité a priori que le document di soit généré par la classe cj (1). Dans cette définition, θ correspond aux paramètres à éstimer à partir d’un corpus d’entraı̂nement. p(di |cj ; θ) = p(|di |) Y {wt ∈di } p(wt |cj ; θ) (1) Cette expression est obtenue sous l’hypothèse “naı̈ve” d’indépendance entre les mots (notament sur l’ordre d’apparition des mots). On sait que cette hypothèse n’est pas vérifiée, cependant les études précédentes montrent, qu’en pratique, les performances du classifieur naı̈f de Bayes pour la classification de documents restent bonnes sous cette hypothèse d’indépendance [Domingos and Pazzani, 1996]. Dans l’équation (1), p(wt |cj ; θ) est estimée sur le corpus d’entraı̂nement via la règle de succession de Laplace (2), avec N (wt , di ) désignant le nombre d’occurrences du mots wt dans le document di : 1+ p(wt |cj ; θ) ≈ X {di ∈cj } l+ X - Ordonner V via l’information mutuelle avec la variable de classe : I(w; C) (cf. eq.9) N (wt , di ) X N (ws , di ) (2) {ws ∈V } {di ∈cj } Pour classer un nouveau document d, on observe la probabilité a priori p(cj |d; θ). Ainsi, la classe prédite pour le document d sera celle qui maximize cette probabilité, calculée par la règle de Bayes (3) : p(cj |d; θ) = p(cj |θ)p(d|cj ; θ) p(d|θ) (3) Par étapes succéssives de transformations et simplifications mathématiques1 sur l’équation (3), le classifieur de Bayes peut être reformulé ainsi : c∗ (d) = arg max {cj ∈C} + X {wt ∈V } log p(cj |θ) |d| Dans cette dernière équation, p(cj |θ) est donnée par le rapport du nombre de documents de étiquetés cj dans D sur le nombre total de documents dans D. Dans le cadre du regroupement de mots, on note W = {W1 , . . . , Wp } le résultat d’un partitionnement du vocabulaire V , tel que chaque cluster Wi est un sous ensemble de V et l’union de tous les clusters de W est égale à V . Afin de décrire les documents par des groupes de mots, plutôt que par des mots, les equations (1) et (4) doivent être modifiées en remplaçant w par W . Les expressions p(Ws |cj ; θ) et p(Ws |d) sont définies par les équations suivantes, dans le cas classique d’un regroupement en classes disjointes (on dit aussi que W est une partition stricte de V ) : p(W |d) = s X N (Ws , di ) {di ∈cj } X X N (Wk , di ) {Wk ∈W} {di ∈cj } (5) N (Ws ,d) |d| P où N (Wk , d) = {wt ∈Wk } n(wt , d). Dans notre étude ce modèle doit être adapté au cas de classes nondisjointes (on parle aussi de pseudo-partition). Nous présenterons ce formalisme d’adaptation en section 3. 2.2 L’algorithme de clustering ADC L’algorithme ADC (Agglomerative Distributional Clustering) a été proposé en 1998 par Baker et McCallum [Baker and McCallum, 1998]. Ce travail est basé sur la 1 Pour - Tant que tous les mots de V ne sont pas intégrés : - Fusionner les deux clusters les plus similaires (k − 1 clusters restant), - Générer un nouveau cluster (singleton constitué du mot suivant dans V ordonné). TAB . 1 – L’algorithme de clustering ADC théorie distributionnelle initiée en 1993 par Pereira et al. [Pereira et al., 1993]. Chaque mot wt de V est caractérisé par deux composantes : la distribution du mot sur les classes {p(cj |wt )}j=1...m et la probabilité d’apparition du mot p(wt ). Ces descriptions sont apprises à partir du corpus d’entraı̂nement. (4) p(wt |d) log p(wt |cj ; θ) p(Ws |cj ; θ) = - Initialiser k clusters : k singletons correspondant aux k premiers mots de V suivant l’ordre établi plus de détails, voir [Dhillon et al., 2003] p(cj |wt ) = X δ(wt , di ) {di ∈cj } X (6) δ(wt , di ) {di ∈D} où δ(wt , di ) vaut 1 si wt est présent dans di et 0 sinon. L’objectif est de regrouper ensemble les mots jouant des rôles similaires dans classification des documents. Une mesure adaptée doit être utilisée afin d’évaluer la proximité entre deux mots. La divergence de Kullback-Leibler (KL), permet de comparer deux distributions : D(p(C|wt )||p(C|ws )) = m X j=1 p(cj |wt ) log p(cj |wt ) (7) p(cj |ws ) Cependant cette mesure n’est pas symétrique et n’est pas définie dans le cas où p(cj |ws ) vaut 0. En pratique on utilise plutôt la “divergence de KL à la moyenne” : d(wt , ws ) = πt .D(p(C|wt )||p(C|wt ∨ ws )) +πs .D(p(C|ws )||p(C|wt ∨ ws )) (8) Dans l’équation (8), p(C|wt ∨ ws ) est définie par πt πs p(C|wt ) + p(C|ws ) πt + π s πt + π s où πt = p(wt ). L’algorithme de clustering, présenté dans le tableau TAB.1, procède par fusions succéssives des deux plus proches clusters, en utilisant la mesure de proximité définie précédemment (8). Cet algorithme est incrémental, il est donc adapté au traitement d’ensembles importants de données, avec une complexité en O(lk 2 m) avec l, k et m correspondant respectivement au nombre de mots, clusters et classes. 2.3 L’algorithme de clustering ITDC L’algorithme ITDC (Information Theoretic Divisive Clustering), présenté dans [Dhillon et al., 2003], est basé sur l’optimisation d’un critère global d’information mutuelle, inspiré de la méthode Information Bottleneck [Slonim and Tishby, 2000]. Soient C la variable de classe, V le vocabulaire et W une partition stricte de V , l’information perdue par le passage de V à W, comme descripteurs des documents, peut être évaluée par la différence I(C; V ) − I(C; W). L’information mutuelle entre deux variables aléatoires X et Y est définie par : I(X; Y ) = X p(x)p(y|x) log x∈X,y∈Y p(y|x) p(y) (9) Le tableau TAB.2 présente l’algorithme ITDC. Cette méthode de regroupement procède de façon comparable à l’algorithme bien connu des k-moyennes : à partir d’une partition initiale, les objets sont itérativement réaffectés de façon à optimiser un critère de qualité. Ici, ce critère correspond à la fonction précédemment définie (I(C; V )−I(C; W)) et la phase d’initialisation consiste à construire des clusters “typiques” des classes cibles avant de les fusionner ou de les scinder afin d’obtenir le nombre désiré de groupes. La partition finale correspond donc à un optimum local pour la fonction de qualité. La complexité de l’algorithme ITDC est en O(lkmτ ) avec l, k, m et τ correspondant respectivement au nombre de mots, clusters, classes et itérations. Entrée : le nombre désiré de clusters k et V , le vocabulaire à traiter. - Initialisation : m clusters (pour m classes) tels que Wi = {wt ∈ V |ci = arg max p(cj |wt )} j - si k > m : scinder arbitrairement chaque cluster en bk/mc clusters (partie entière), - si k < m : fusionner les clusters jusqu’à en obtenir k - Tant que la variation de la fonction de qualité I(C, V ) − I(C, W) est > ε (fixé), - pour chaque cluster Wj , calculer p(Wj ) et p(C|Wj ), - pour chaque mot wt ∈ V , rechercher son plus proche cluster : j ∗ (wt ) = arg min D(p(C|wt )||p(C|Wi )) i puis ré-affecter wt au cluster Wj ∗ - calculer l’information mutuelle I(C; W) avec les nouveaux clusters Sortie : le partitionnement stricte W de V en k clusters. TAB . 2 – L’algorithme de clustering ITDC 3 PSEUDO-PARTITIONNEMENT : MOTIVATIONS ET CADRE PROBABILISTE Considérons un corpus d’entraı̂nement où chaque document est étiqueté par l’une des deux classes : A ou B. Supposons que le vocabulaire V , extrait de ce corpus, s’organise en deux sous-ensembles W1 et W2 , plus un mot ws tels que : – ∀wi ∈ W1 , p(cA |wi ) ≈ 1 et p(cB |wi ) ≈ 0, – ∀wi ∈ W2 , p(cB |wi ) ≈ 0 et p(cB |wi ) ≈ 1, – p(cA |ws ) ≈ p(cB |ws ) ≈ 12 . Autrement dit, les mots de W1 apparaisent quasiexclusivement dans les documents de classe A, les mots de W2 quasi-exclusivement dans les documents de classe B, tandis que le mot ws apparaı̂t équitablement dans les deux classes de documents A et B. Un partitionnement stricte de V , conduira vraissemblablement à l’un des deux schémas suivants : P1 = {W1 ∪ {ws }, W2 } ou P2 = {W1 , W2 ∪ {ws }}. Supposons à présent que l’on cherche à classer un nouveau document d, caractérisé par la présence de ws uniquement, parmi les mots de V . La caractérisation d’un groupe de mot W ⊂ V est dérivée de la caractérisation des mots qui le composent par : P p(W ) = wt ∈W p(wt ) (10) P t) p(cj |W ) = wt ∈W p(w p(c |w ) j t p(W ) Si la partition P1 a été établie, on a p(cj |d) = p(cj |W1 ∪ ws ). Par le système d’équations (10) et les hypothèses de distributions des mots sur les classes, on en déduit que p(cA |d) p(cB |d) d’où l’affectation de d à la classe A. En revanche, si c’est la partition P2 qui est établie, le document d sera classé dans B. En généralisant cet exemple, si beaucoup de mots “ambigus” apparaissent dans un document test, le biais induit par un partitionnement strict du vocabulaire peut entraı̂ner une perte d’information importante dans l’indexation des documents et ainsi produire des erreurs de classification en conséquence. Ce phénomène peut s’expliquer également dans un cadre sémantique. Par exemple, si l’on considère que les deux classes A et B correspondent à des documents portant sur les thématiques respectives de la “justice” et de la “gastronomie”. Ces deux thématiques semblent bien différentes puisqu’elles possèdent chacune leur propre terminologie. Supposons alors que les deux ensembles de mots suivants ont été extraits du corpus d’entraı̂nement : W1 = {Court Suprême, Magistrat, Citoyen, Avocat, ... } et W2 = { Restaurant, Salade, Asperge, Avocat, ...}. Le mot ws =“avocat” est polysémique et appartient aussi bien à la thématique de la “justice”2 qu’à celle de la “gastronomie”3 . Dans la construction d’une partition stricte du vocabulaire extrait, ws sera inclu dans l’un des 2 Par 3 Par cats. exemple Le réquisitoire de l’avocat était brillant. exemple Ce restaurant propose une délicieuse salade d’avo- deux groupes W1 ou W2 exclusivement, ce qui revient à conserver l’un des deux sens observés de ce mots et à ignorer le second. L’exemple précédent traite d’une situation extrême. Cependant on peut facilement constater que beaucoup de termes sont partagés par plusieurs documents, dans des contextes sémantiques distincts, avec différents degrés d’implication. Dans cette étude nous proposons de supprimer la contrainte liée à la construction de partitions strictes, en utilisant un algorithme de clustering autorisant les recouvrements entre les clusters. Les clusters obtenus forment alors ce que l’on appelle une pseudo-partition de l’ensemble des objets. Ces intersections entre clusters nécessitent une adaptation du modèle probabiliste défini jusqu’alors. Le système proposé en (10) se redéfini par : P p(W ) = {wt ∈V } p(W |wt )p(wt ) p(c|W ) = 1 p(W ) P {wt ∈V } p(W |wt )p(wt )p(c|wt ). (11) Dans (11), le terme p(W |wt ) correspond au degrés d’implication du mot wt dans le cluster W . Dans le cas d’un partitionnement stricte, chaque objet appartient à un seul cluster, p(W |wt ) peut alors s’écrire : p(W |wt ) = 1 si wt ∈ W 0 sinon. (12) Lorsqu’un objet est partagé par plusieurs clusters, deux possibilités sont envisageables. La première consiste à dupliquer l’objet et à le considérer comme différent selon qu’il est contenu dans tel ou tel cluster. Cette méthode revient en quelquesorte à introduire de nouveaux objets dans le système (un mot par variante sémantique). Cependant, cette approche entraı̂ne une modification du système global et nécessite de recalculer l’ensemble de ses paramètres (p(wt ), p(cj |wt ), etc.). La seconde possibilité est celle que nous retenons ; elle consiste à partager l’objet équitablement selon les clusters auxquels il appartient. Nous proposons alors la pondération suivante : p(W |wt ) = 1 n si wt ∈ W 0 sinon. (13) Dans cette définition, n correspond au nombre de clusters dans lesquels l’objet wt apparaı̂t. 4 L’ALGORITHME DDOC Dans cette section nous présentons l’algorithme DDOC (Distributional Divisive Overlapping Clustering) permettant de structurer le vocabulaire V en clusters nondisjoints de mots (ou pseudo partition). Cet algorithme se divise en deux principales étapes : d’abord la construction de “noyaux recouvrants” à partir d’un sous-ensemble du vocabulaire, puis une phase itérative de multi-affectations des mots à ces “noyaux recouvrants”. Entrée : V le vocabulaire extrait du corpus d’entraı̂nement avec (|V | = l), M un paramètre fixé ∈ {1 . . . l}, τ un nombre d’itérations fixé, - Ordonner V via l’information mutuelle avec la variable de classe : I(w; C), - Appliquer PoBOC sur les M premiers mots de V relativement à l’ordre établi, (formation de k clusters non-disjoints, (W1 , . . . , Wk ) avec k M ) - Pour chaque cluster Wi , calculer p(Wi ) et p(C|Wi ), à l’aide de (11) et (13), - Pour chaque mot wt non traité : - Calculer pour chaque cluster Wi : dKL (wt , Wi ), (avec dKL donné par (8)) - Affecter wt aux clusters les plus proches (TAB. 4), - Tant que les clusters sont modifiés et moins de τ iterations : - Pour chaque cluster Wi calculer p(Wi ) et p(C|Wi ), - Pour chaque mot wt ∈ V : - Calculer pour chaque cluster Wi : dKL (p(C|wt )||p(C|Wi )), - Affecter wt aux clusters les plus proches (TAB. 4). Sortie : Une pseudo-partition optimisée (W1 , . . . , Wk ). TAB . 3 – L’algorithme DDOC Pour la première étape nous faisons appel à l’algoritme PoBOC [Cleuziou et al., 2004] avec, pour mesure de proximité, la divergence de KL à la moyenne (cf. section 2.2). L’algorithme général DDOC est détaillé dans le tableau TAB.3, puis nous précisons dans le tableau TAB.4, la phase de multi-affectations (inspirée de son équivalent dans l’algorithme PoBOC). La phase d’ordonnancement des mots par information mutuelle (I(w; C)) permet de constituer un “bon” échantillon de V . Cette technique est en effet utilisée pour la phase d’initialisation dans l’algorithme ADC et indirectement dans la méthode ITDC. Les “noyaux recouvrants”4 sont le résultat d’une étape de pré-clustering via PoBOC. Cette initialisation diffère de l’approche ADC, qui débute avec uniquement des singletons, et de l’algorithme ITDC qui scinde ou fusionne “arbitrairement” une première partition de V afin d’obtenir le nombre désiré de clusters. Parceque les noyaux sont par définition non-disjoints et en nombre non prédéterminé, on peut supposer que cette initialisation est à la fois plus précise et plus “objective”. L’étape itérative de ré-affectations multiples utilisée dans DDOC, est assez proche de celle proposée dans ITDC. 4 On appelle “noyaux recouvrants” les clusters non-disjoints obtenus par l’algorithme PoBOC Entrée : wt le mot à affecter parmi {W1 , . . . , Wk }, f ∈]0; 1] un paramètre fixé, - Ordonner les clusters par similarité décroissante avec wt , en utilisant dKL (p(C|wt )||p(C|Wi )), {W1 , . . . , Wk } → {W̃1 , . . . , W̃k } - Affecter wt à W̃1 (plus proche cluster de wt ), - Pour chaque cluster W̃i (i > 1) : affecter wt à W̃i ssi i) et ii) sont vérifiées : i) wt a été affecté à W̃i−1 , ii) dKL (wt , W̃i ) < f.(dKL (wt , W̃i+1 ) − dKL (wt , W̃i−1 )) + dKL (wt , W̃i−1 ). Sortie : Un ensemble de classes {W̃1 , . . . , W̃i } où wt est affecté. TAB . 4 – La procedure de multi-affectations Cependant, on note deux différences majeures : – l’utilisation de la divergence de KL à la moyenne plutôt que la divergence simple de KL, – un processus de multi-affectations plutôt qu’une affectation simple. La première différence s’explique par les bonnes propriétés de la mesure choisie (cf. section 2.2). Enfin, c’est le processus de multi-affectations qui permet à un mot d’appartenir à plusieurs classes, l’algorithme de multiaffectations est présenté dans le tableau TAB.4. Dans cette description, le paramètre f peut être considéré comme un fuzzifieur tel que : pour f = 0, les affectations sont simples (affectation au plus proche cluster) et le nombre d’affectations pour un même mot augmente avec f. La complexité de l’algorithme DDOC est en O(lkmτ ) avec l, k, m et τ correspondant respectivement aux nombres de mots, clusters, classes et itérations. 5 RÉSULTATS EXPÉRIMENTAUX Nous présentons dans cette section les premiers résultats expérimentaux utilisant un algorithme de clustering nondisjoint, pour réduire la dimension de l’espace de description des documents. Une étude comparative est effectuée sur deux corpus classiques, faisant référence dans le domaine de la classification de documents : le corpus 20Newsgroup [Lang, 1995] et le corpus Reuters-21578 (http ://www.research.att.com/∼lewis). 20Newsgroup est un corpus constitué de 18941 articles. Il s’agit d’échanges entre personnes dans le cadre d’un forum de discussions5 . Les documents sont organisés autour de 20 thématiques (groupes de discussions) qui 5 Nous utilisons la version “by date” de ce corpus, disponnible à l’adresse http ://www.ai.mit.edu/∼jrennie/20Newsgroups/ constituent alors les 20 classes à apprendre. Deux souscorpus sont prédéfinis : l’ensemble des documents d’entraı̂nement (60%) et de test (40%). A partir du corpus d’entraı̂nement, 22183 lemmes sont extraits par lemmatisation et suppression des mots vides (utilisation d’une stoplist) et des mots apparaissant dans moins de trois documents. Le corpus Reuters-21578 se divise en 9603 documents pour l’ensemble d’entraı̂nement et 3299 documents tests, en utilisant la collection modifiée “ModApte” [Apte et al., 1994]. Ces documents sont organisés autour de 118 classes non-exclusives (un document peut être étiqueté par plusieurs classes différentes). Par un processus similaire au précédent, 7680 lemmes sont extraits du corpus d’entraı̂nement. Les résultats présentés en figures FIG.1 et FIG.2 sont obtenus par apprentissage sur les sous-corpus d’entraı̂nement puis par évaluation sur les sous-corpus tests. Le taux de bonne classifiation est obtenu par le rapport du nombre de documents tests pour lesquels la classe prédite est “correcte” sur le nombre total de documents tests. Pour le corpus Reuters-21578, les documents étant possiblement étiquetés par plusieurs classes, une classe prédite sera considérée “correcte” si elle fait partie des étiquettes proposées pour ce document. Pour chacun des deux corpus nous proposons d’observer, dans un premier temps, l’influence des intersections entre clusters de mots, puis dans un second temps de comparer l’algorithme DDOC avec les deux autres méthodes de clustering présentées dans cette étude : ADC et ITDC. Notons que pour toutes ces expérimentations, c’est le classifieur naı̈f de Bayes, présenté en section 2.1, qui est utilisé pour classer les documents. Les pourcentages de recouvrements entre clusters sont donnés par le calcul suivant : (Naf f − Nmots )/Nmots où Naf f correspond au nombre total d’affectations des mots aux “noyaux recouvrants” (cf. section 4) et N mots à la taille du vocabulaire. Par exemple, si le pourcentage de recouvrements est de 25%, cela signifie qu’en moyenne, 1 mot sur 4 est partagé par deux clusters. Dans les figures supérieures, chaque série de points correspond à une initialisation du paramètre M dans l’algorithme DDOC et donc à un nombre de clusters k. Pour une même série (M fixé), chaque point correspond à une instanciation du fuzzifieur f entre 0.0 et 0.5. Dans les figures inférieures, chaque point d’une même série correpond à une instanciation de M . Par exemple : si pour M = 50 on obtient k = 11 par l’algorithme DDOC, on compare DDOC pour M = 50 avec ADC et ITDC pour k = 11 (à nombre de clusters identique). Dans la mesure où le principal objectif du clustering est de réduire le plus possible l’espace de description des documents, nous nous sommes attachés ici à étudier le comportement des classifieurs induits par les différentes approches de clustering, pour un nombre limité de clusters. Ainsi, dans les expérimentations, ce nombre de clusters varie entre 2 et environ 150. Sur les deux corpus on observe (figures supérieures) l’influence des intersections entre clusters sur les per- k=8 k=12 k=14 k=22 k=36 k=82 k=232 80 k=5 k=6 k=7 k=9 k=12 k=14 k=18 k=36 k=58 k=76 84 82 70 60 % Accuracy % Accuracy 80 78 76 50 74 40 72 30 0 5 10 15 20 25 30 35 70 40 0 5 10 15 % Overlapping BA X TU R w ~y ~~ X S 9 :2 >= = < 9 12 V S } W VU R z W R W TU R vw rs tu W S RVU R RR VTU R xy 34 40 VR {s zw 56 35 VVU R | s}{ 96 78 z z ; 2<: 30 YZY[\] ^ _` a bc d"Y\ e fY\ X R =?8 25 X VU R !" # $ 9 @6 20 % Overlapping R TU R %'&( )* + ,- ./0, F IG . 1 – Expérimentations sur le corpus 20Newsgroup, taux de bonne classification sur le corpus test. (haut) Influence de la quantité de recouvrement entre classes, par DDOC. (bas) Comparaisons entre ADC, ITDC et DDOC. RS C D E F G H IKJ ILD gihj kl mno pq0n INM COF EPM GQF INHE F IG . 2 – Expérimentations sur le corpus Reuters-21578, taux de bonne classification sur le corpus test. (haut) Influence de la quantité de recouvrement entre classes, par DDOC. (bas) Comparaisons entre ADC, ITDC et DDOC. formances du classifieur induit. Quand le pourcentage d’intersections entre clusters augmente, dans un premier temps le classifieur gagne en performance, puis dans un deuxième temps il perd en efficacité. Les meilleures performances sont obtenues pour un taux de recouvrements d’environ 10 à 20% pour les deux corpus. Ces résultats valident la principale hypothèse de ce travail, concernant l’intérêt de proposer une pseudo-partition plutôt qu’une partition stricte du vocabulaire pour réduire la dimension de l’espace de description des documents. Les comparaisons effectuées avec les méthodes de regroupement d’attributs exitantes (figures inférieures) sont également encourageantes. Sur les deux corpus, l’algorithme DDOC induit un classifieur meilleur que celui induit par ADC. Concernant l’algorithme ITDC, si la comparaison à ADC sur 20Newsgroup est concluante [Dhillon et al., 2003], cette même comparaison n’avait pas encore était effectuée sur le corpus Reuters-21578, réputé “difficile”. Or nous montrons ici que l’algorithme DDOC est comparable à ITDC sur le corpus 20Newsgroup et sensiblement meilleur sur le second corpus. 6 CONCLUSION ET PERSPECTIVES Dans cet article nous proposons une nouvelle approche pour le regroupement d’attributs dans le cadre de la classification automatique de documents. L’algorithme DDOC (Distributional Divisive Overlapping Clustering) permet d’organiser le vocabulaire extrait du corpus d’entraı̂nement en une pseudo-partition, telle que chaque mot peut appartenir à plusieurs clusters. Cette approche, motivée sur un aspect sémantique, procède par structuration d’un sous-ensemble du vocabulaire (pré-clustering) suivit d’une étape de multi-affectations des mots relativement au pré-clustering. La méthode DDOC est alors comparée aux algorithmes existant dans le domaine, à savoir ADC (Agglomerative Distributional Clustering) et ITDC (Information Theoretic Divisive Clustering). Sur les deux corpus 20Newsgroup et Reuters-21578, les expérimentations permettent d’apprécier la qualité des nouveaux attributs générés par DDOC et de conclure sur l’intérêt de proposer une organisation plus souple des mots, en classes non-disjointes. Dans la suite de ce travail nous étudierons de façon formelle, l’impact des intersections entre clusters sur le critère d’information mutuelle. Nous proposerons également une phase d’apprentissage permettant d’ajuster automatiquement le paramètre fuzzifieur (f ) relativement au corpus d’entraı̂nement. Enfin, nous envisagerons d’utiliser d’autres méthodes de classification (e.g. SVM). BIBLIOGRAPHIE [Aas and Eikvil, 1999] Aas, K. and Eikvil, L. (1999). Text categorisation : A survey. [Apte et al., 1994] Apte, C., Damerau, F., and Weiss, S. M. (1994). Automated learning of decision rules for text categorization. Information Systems, 12(3) :233– 251. [Baker and McCallum, 1998] Baker, L. D. and McCallum, A. K. (1998). Distributional clustering of words for text classification. In Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval, pages 96–103, Melbourne, AU. ACM Press, New York, US. [Cleuziou et al., 2004] Cleuziou, G., Martin, L., and Vrain, C. (2004). Poboc : an overlapping clustering algorithm. application to rule-based classification and textual data. In de Mántaras, R. L. and L. Saitta, I. P., editors, ECAI, pages 440–444, Valencia, Spain. Proceedings of the 16th European Conference on Artificial Intelligence. [Deerwester et al., 1990] Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman, R. A. (1990). Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6) :391–407. [Dhillon et al., 2003] Dhillon, I. S., Mallela, S., and Kumar, R. (2003). A divisive information theoretic feature clustering algorithm for text classification. J. Mach. Learn. Res., 3 :1265–1287. [Domingos and Pazzani, 1996] Domingos, P. and Pazzani, M. J. (1996). Beyond independence : Conditions for the optimality of the simple bayesian classifier. In International Conference on Machine Learning, pages 105–112. [Forman, 2003] Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. J. Mach. Learn. Res., 3 :1289–1305. [Lang, 1995] Lang, K. (1995). NewsWeeder : learning to filter netnews. In Proceedings of the 12th International Conference on Machine Learning, pages 331–339. Morgan Kaufmann publishers Inc. : San Mateo, CA, USA. [Pereira et al., 1993] Pereira, F. C. N., Tishby, N., and Lee, L. (1993). Distributional clustering of english words. In Meeting of the Association for Computational Linguistics, pages 183–190. [Roche and Kodratoff, 2003] Roche, M. and Kodratoff, Y. (2003). Utilisation de LSA comme première étape pour la classification des termes d’un corpus spécialisé. In Actes (CD-ROM) de la conférence MAJECSTIC’03 (MAnifestation des JEunes Chercheurs dans le domaine STIC). [Slonim and Tishby, 2000] Slonim, N. and Tishby, N. (2000). Document clustering using word clusters via the information bottleneck method. In Research and Development in Information Retrieval, pages 208–215.