initialement identifiées. Après une telle réduction, l’ensemble des relations s’avère beaucoup plus facile à
gérer et à analyser.
3.2 Qualité des représentations obtenues
Il est intéressant d’observer, toujours à partir de la figure 1, que les relations retenues présentent une
fréquence d’occurrence s’élevant au maximum à 48. Un tel paramétrage conduit de facto à écarter de la
représentation les cooccurrences comptant parmi les plus fréquentes dans le corpus étudié (cf. note de bas
de page n°1). Le graphe conserve 33 relations avec une occurrence de 4, 55 relations avec une occurrence
de 5 à 9, 30 relations avec une occurrence variant entre 10 et 19, 12 relations avec une occurrence
s’échelonnant entre 20 et 29, et 6 relations avec une occurrence allant de 30 à 48. Toutefois, un tel
paramétrage n’assure pas la meilleure représentation du corpus. En effet, les grappes constituées sont
d’une taille limitée. Il est donc nécessaire de jouer sur les paramètres afin d’accroître au mieux le nombre
de relations sélectionnées.
3.3 Stabilité des résultats obtenus
Ainsi conçu, l’algorithme n’assure pas, pour un paramétrage donné, une stabilité parfaite des résultats. En
effet, la sélection des relations repose sur un tirage aléatoire. Il n’est donc pas assuré que les graphes
obtenus soient similaires, pour des paramètres fixés d’une manière rigoureusement identique. A titre
expérimental, le programme a été ainsi lancé à cinq reprises avec des paramètres identiques. Pour les
paramètres suivants {« nbpasses »=10, « âge »=3, « min »=1, « max »=245, et « mingrappe »=5} le
nombre de grappes varie entre 8 et 15, et le nombre de relations sélectionnées entre 69 et 106. Une
augmentation du paramètre « nbpasses » à 30 n’induit pas des résultats significativement différents2 au
niveau du nombre de grappes ou du nombre de relations choisies. Par ailleurs, si l’on compare les relations
sélectionnées lors des cinq essais effectués, celles qui apparaissent au moins dans deux graphes
représentent moins de 10% du total des relations apparaissant dans les graphes. En revanche, ce taux passe
à 30% lorsque l’on joue sur le paramètre « âge » ou amax.
Cependant, l’algorithme dans sa version la plus récente a été modifié afin de procéder à un tirage aléatoire
sans remise. La stabilité des résultats a été ainsi améliorée significativement sans qu’il soit possible en
l’état actuel, dans le cadre de cette présentation succincte, d’en présenter l’intégralité des résultats.
Par ailleurs, bien que la méthode ici proposée soit parfaitement reproductible sur tout type de corpus, il
nous reste à mieux en estimer la qualité, au niveau des représentations obtenues, et ce, à partir d’un
ensemble plus diversifié de corpus.
4 Conclusion
Les algorithmes à base de réseaux de neurones fournissent une solution utile pour les analystes souhaitant
obtenir une représentation synthétique d’un ensemble de cooccurrences de termes. En outre, en fonction
des valeurs affectées aux paramètres s’ajoutent des fonctions de classification des termes associés.
5 Bibliographie
[LAF 84] LAFON P., Dépouillements et Statistiques en Lexicométrie, Slatkine Champion, 1984.
[MAR 93] MARTINETZ T., “Competitive Hebbian learning rule forms perfectly topology preserving
maps”. In S. Gielen, B. Kappen (ed.), Proceedings ICANN’93, International Conference on Artificial
Neural Networks, London : Springer, 1993, p. 427-434.
[TRE 05] TREBUCQ S., PRUDENT Y., ENNAJI A., “ Cooccurrences et cartes adaptatives : proposition
d’un outil de visualisation et application à un corpus spécialisé ”, Actes du 3ème Atelier Visualisation
et extraction de connaissances, Journées EGC ( Extraction et Gestion de Connaissances), Paris, 18
janvier 2005.
2 Cette absence de différence a été testée à partir d’une statistique non-paramétrique, selon le test de U Mann Withney.