géotechnique publiées en 2003, signalant des documents de type article, congrès ou thèse.
Pour réaliser les classifications, nous utilisons les termes d’indexation présents dans les
notices.
Dans cette première période, nous avons plus particulièrement étudié deux approches de
classifications incrémentales.
D’une part, le programme de classification incrémentale non supervisée GERMEN, basé sur
la notion de densité, [Lelu et al. 2006] a été finalisé et corrigé. Nos travaux ont plus
particulièrement porté sur le pré-traitement des données avant classification. Nous avons
étudié une méthode de pré-traitement qui nous semble prometteuse (Tournebool) : elle permet
de déterminer de façon probabiliste les liens entre documents et calculer ainsi le graphe des
documents à classifier.
D’autre part, une méthode de classification dérivée des méthodes GNG et que nous nommons
I2GNG pour « Improved Incrmenetal GNG » a également été développée. I2GNG a d’abord
été testé de façon supervisée sur un corpus de données de type facture, et ensuite, de façon
non supervisée sur notre corpus documentaire de référence.
Afin d’outiller l’analyse des résultats obtenus par ces deux méthodes de classification, nous
avons développé, d’une part, des indices de qualité calculables à partir des résultats quelque
soit la méthode de classification utilisée, et d’autre part, une méthode de visualisation
hyperbolique des résultats de classification multidimensionnelle utilisant un algorithme de
classification hiérarchique original basé sur la densité associé à une nouvelle méthode
d’étiquetage des classes.
2.1. Etude bibliographique
Dans un premier temps nous nous sommes intéressés aux méthodes de classification
existantes afin de positionner et de finaliser les méthodes incrémentales que nous proposons.
Nous avons tout d'abord fait la synthèse des méthodes statiques non supervisées en étudiant
différentes familles de classifieurs. Plusieurs découpages sont possibles ([Beck 2006] ;
[Candillier 2004] ; [Turenne 2001]), nous avons choisi celui utilisé entre autre par N. Pasquier,
ou P. Leray [Leray 2004]:
• Algorithmes de partitionnement
• Algorithmes hiérarchiques
• Algorithmes basés sur la densité
• Algorithmes de grilles
• Algorithmes autoadaptatifs
Nous avons ensuite étudiés les méthodes dynamiques existantes. Parmi ces méthodes, nous
avons repérés les suivantes :
• des adaptations de la méthode des K-means pour la rendre incrémentale ([Lin & al.
2004] ; [Gaudin & Nicoloyannis 2005]),
• des méthodes neuronales comme ART, CLASSPHERES, IGNG ([Aguilar &Ross
1994] ; [Puzenat 1995 ], [Prudent & Ennaji 2004] ; [Furaoa 2006])
• des méthodes hiérarchiques comme JERARTOP, COBWEB ou CURE ([Pons-Porrata
et al. 2004] ; [Fisher 1987] ; [Talavera 2000] ; [Guha et al. 1998])
• des méthodes par densité comme DBSCAN, CHAMELEON, OPTICS, DENCLUE
([Ester et al. 1998] ; [Karypis et al. 1999] ; [Ankerst et al. 1999] ; [Hinneburg & Keim
1998])