1
Les 10èmes rencontres internationales des approches connexionnistes en
sciences économiques et de gestion
"LA CLASSIFICATION AUTOMATIQUE DE DONNEES
QUALITATIVES AVEC L'ALGORITHME DE KOHONEN"
Maurel Christophe (CREREG)
IGR, 11 rue jean Macé 35708 Rennes
Christophe.maurel@univ-rennes1.fr
Résumé :
Différents modèles classificatoires sont utilisés dans l'analyse de discours assistée par
ordinateur. Parmi eux, le recours aux algorithmes utilisant les réseaux de neurones se
développe. Une application est ici proposée sur des données issues d'entretiens puis de textes
administratifs. La pertinence des classifications obtenues nous permet de conclure sur
l'opportunité d'une classification neuronale portant sur des données qualitatives.
Mots clés : algorithme de Kohonen, classification de discours, réseaux de neurones.
Abstract :
Various classifying models are used in the analysis of speech computer-assisted. This
paper present an application of neuronal classification on data resulting from talks then of
administrative texts. The relevance of classifications obtained shows the opportunity to use a
neuronal classification relating to qualitative data.
Key-words : cluster analysis, discourse analysis, SOM, text classification
2
Les analyses de données qualitatives assistées par ordinateurs sont de plus en plus
utilisées (Bournois et al., 2002).
Parmi elles, on trouve les analyses de contextes s'appuyant sur une classification automatique
d'un corpus textuel ou d'énons verbaux. Les modèles classificatoires s'améliorent et peuvent
maintenant donner relativement rapidement des résultats intéressants. En utilisant l'algorithme
de classification de T. Kohonen (1984) à partir d'un logiciel de Textmining, nous testons
l'intérêt d'une classification neuronale dans la catégorisation d'énoncés verbaux et de corpus
textuels. Un indice de vraisemblance est utilisé pour comparer la classification obtenue à une
catégorisation de référence. Les résultats montrent la bonne capacité à gérer un corpus
homogène, mais des limites dans l'apprentissage lorsque le corpus analysé est restreint.
1- LA CLASSIFICATION AUTOMATIQUE DE DISCOURS
Cette première partie se compose d'une présentation de l'algorithme utilisé pour la
classification effectuée, et d'une explication du fonctionnement du logiciel exploité.
Pour situer le cadre dans lequel s'insère le modèle du logiciel utilisé, une présentation
des différents modèles classificatoires est avancée.
A partir de Remaki et al. (1998) et de Biskri et Meunier (2002), on peut distinguer
cinq types de modèles classificatoires.
- les modèles statistiques classificatoires (Croft, 1980 ; Diday, 1987) ;
- les modèles multidimensionnels par cooccurrences (Cheeseman et al., 1988), par
composantes principales (Lebart et Salem, 1994) ou bien, par regroupement ou factorisation ;
- les modèles d'algorithmes génétiques appliqués au texte (Rialle, Meunier et
Oussedik, 1997 ; Rialle, Meunier et Biskri, 1998) ;
- des modèles basés sur les champs de Markov
1
(Remaki et al., 1998 ; Bouchaffra et
Meunier, 1995 et 1996) ;
- Et les modèles connexionnistes, avec des modèles matriciels linéaires ou non
linéaires (Anderson et al., 1977 ; Murdock, 1982), des modèles thermodynamiques (Hinton et
Sejnowski, 1986), et des modèles utilisant les réseaux de neurones auto-associatifs basés sur
la compétition, la rétropropagation, l'apprentissage (Véronis, 1990 ; Kohonen, 1984 ; Lelu
1993). Lelu (op. cit.) distingue les algorithmes de la famille des nuées dynamiques, ou k-
means
2
, utilisant la méthode des centres mobiles, et des algorithmes stochastiques (utilisé par
exemple dans le logiciel d'analyse textuelle Acetic Tropes).
1
Il faut d'abord soumettre le texte à une analyse morpho-synthaxique qui permet le calcul d'une distance entre
énoncés (Pêcheux, 1964 ; Rouault, 1994), ensuite réaliser une analyse linguistique classique basée sur des poids
assignés à des unités d'informations, c'est-à-dire les mots. Le texte est découpé en segments qui sont considérés
comme une famille stochastique (i.e., de variables aléatoires) et forment ainsi un champ de Markov.
2
Algorithmes proches de celui de Kohonen qui reposent sur une classification par centres mobiles (cf. MacQeen,
1967). Il s'agit de classifications utilisant les approches top-downs, qui facilitent l'identification de hiérarchies
dans les domaines de la représentation. Les k-means appartiennent à la famille des algorithmes d'analyse de
classes centrées mobiles : le "centre de surface" d'un groupe de termes, recalculé après chaque série de
document, est insé. Comme tous les algorithmes de nuées dynamiques, il faut donner le nombre de classes
3
Les avantages des modèles connexionnistes tiennent à ce que leur structure parallèle
leur permet de satisfaire un ensemble de contraintes faibles et même parfois contradictoires,
de généraliser leur comportement à des situations nouvelles (le filtrage), et de détecter des
régularités et ce, même en présence de bruit. Cependant, la possibilité pour ces modèles de
répondre par un état stable à un ensemble d'inputs variables repose sur une capacité interne de
classification de l'information
3
.
Nous présentons ici un logiciel utilisant l'approche des réseaux de neurones, et plus
particulièrement l'algorithme de Kohonen (1984). La classification obtenue est dite neuronale
et elle s'appuie sur un modèle d'apprentissage non supervisé.
Des applications de l'algorithme de Kohonen ont montré son intérêt dans différents
domaines (cf. notamment Cottrell et al., 1998 ; De Bodt et Cottrell, 1999 ; Varfis et Versino,
1992).
Les travaux insistent sur sa capacité de représentation, due à la notion de voisinage. En
effet, Kohonen propose un modèle de carte topologique auto-adaptative qui permet de coder
des motifs présentés en entrée tout en conservant la topologie de l'espace d'entrée.
Dans la plupart des applications, les neurones d'une carte de Kohonen sont disposés sur une
grille 2D.
dési, nécessaire au processus de classification, a priori. Une autre limite à cette méthode est que les résultats
sont liés à l’ordre d’entrée des individus à classer (Benhadid et al., 1998).
Le principe est le suivant : Soit I un ensemble de n individus caractérisés par p mesures (variables). On suppose
que l’espace Rp supportant les n individus est muni d’une distance euclidienne (ou autre) entre le
me individu
et une classe l définie par : 'LO ^dMdS`>;LM;POM@
où X(i,j) est la valeur de la jème variable pour le ième individu et Xmsa moyenne dans la classe l.
On détermine une partition initiale de l’ensemble des individus I en K classes par tirage pseudo-aléatoire.
L’algorithme consiste ensuite à déterminer en une ou plusieurs itérations les nouveaux centres des classes d’une
nouvelle partition P(n,K) induite par la réaffectation de l’ensemble I des individus dans les K classes de façon à
minimiser l’erreur : (>3Q.@ L Q'>LOL@
où l(i) est la classe du ieme individu, P[n,K] la partition induite par la réaffectation des individus dans les K
classes et D[i,l(i)] la distance euclidienne entre l’individu i et le centre de sa classe l(i).
3
Ces modèles opèrent souvent sur des données bien contrôlées qui doivent être présentes au début et tout au long
du traitement, ils exigent divers paramètres d'ajustements qui relèvent d'une description statistique du domaine…
il s'ensuit que les résultats de classification obtenus sont valides pour autant qu'ils portent sur les données
contrôlées où peu de modifications sont possibles. Si, après la période d'apprentissage, les systèmes sont
confrontés à des données qui n'étaient pas prévues dans les données de départ, ils auront tendance à les classer
dans les prototypes déjà construits, donc à produire une sous-classification. Or, les domaines du texte nous
confrontent à des modifications. Ce qui implique pour le modèle de classification utilisé une nécessaire
dynamicité de l'apprentissage ainsi qu'une certaine plasticité (capacité d'adaptation à de nouvelles données).
4
L’ensemble des données correspond ici à un ensemble fini, une matrice formée de N
observations décrites par un identificateur et de P variables. L’algorithme regroupe les
observations en classes, en respectant la typologie de l’espace des observations (cf. la
définition d’une notion de voisinage entre les classes, les observations voisines dans
l’espace des variables appartiennent à la me classe ou à des classes voisines).
Le poids associé aux liaisons latérales entre neurones est fonction de la distance entre
le neurone source et le neurone cible. La valeur du poids est donnée par une fonction
"chapeau mexicain'' (Difference Of Gaussians, ou DOG). Les connexions provenant des
entrées, quant à elles, arrivent perpendiculairement au plan formé par les liaisons latérales.
Le réseau de Kohonen construit automatiquement les groupes d’enregistrements selon
les régularités internes que l’algorithme observe au sein des données, c’est à dire la similarité
que présente les enregistrements sur les champs. Le processus est interactif et itératif : les
décisions que l’utilisateur guident un certain nombre d’étapes telles que la préparation d’un
ensemble de données sur lequel sera appliquée l’extraction, la recherche, le raffinement des
modèles obtenus.
On distingue deux types de fonctionnement. Dans un premier temps, l'ensemble des
formes devant être apprises est présenté au réseau et les vecteurs de poids sont mis à jour de
manière à approximer les vecteurs d'entrée. Les paramètres de la carte sont adaptés au fur et à
mesure pour qu'elle se stabilise de plus en plus. La deuxième étape est la phase d'utilisation
proprement dite. Dans ce cas, on présente un motif particulier et c'est le neurone dont le
vecteur de poids minimise la distance avec le vecteur d'entrée qui réagit.
Le mécanisme d'apprentissage est le suivant :
Les poids Wij sont génés aléatoirement. Il faut calculer la distance entre le vecteur présenté
I=[I1,I2,....,IM] et le vecteur de poids de chaque neurone Wi= [Wi1,Wi2,...,WiM] :
On choisit le neurone dont le diest le plus petit.
Les poids de ce neurone sont actualisés comme suit
n (t) est le coefficient d'apprentissage (ou le gain) compris dans [0,1]. Il décroît avec le
temps. Les voisins de ce neurone sont mis à jour suivant la même règle mais aussi en fonction
du DOG. Le DOG, ou le rayon des voisinages, se rétrécie avec le temps.
On présente à nouveau les motifs jusqu'à stabilisation des poids.
Durant la phase d'utilisation, on présente un motif particulier et c'est le neurone ayant
la distance la plus faible qui réagit. La sortie est activée en conséquence.
Après un temps de convergence, le réseau évolue de manière à représenter au mieux la
topologie de l'espace de départ. Il faut en fait noter que la notion de conservation de la
topologie est en fait abusive puisqu'en général la taille du vecteur d'entrée est bien supérieure
à la dimension de la carte (souvent 2) et il est donc impossible de conserver parfaitement la
topologie
4
. En fait le terme de quantification vectorielle de l'espace d'entrée doit plutôt être
utilisé.
Par ailleurs, les algorithmes de classification de la famille des algorithmes de nuées
dynamiques, tel que celui de Kohonen, cessitent de fixer a priori le nombre de classe
maximum à faire apparaître sur la représentation graphique finale. La formule de calcul de
4
Sur les difficultés de convergence, voir Cottrell et al. (1995).
5
l’algorithme implique, en effet, de connaître par avance cette donnée, laquelle est un carré car
on utilise une table de Burt croisant les lignes et les colonnes. Par exemple, une carte de
Kohonen de 4*4 cases correspond dans une classification automatique de discours à un
diagramme neuronale de 16 classes au maximum.
Un choix de valeur faible pour le nombre de cluster désiré et tout sera inclus. Alors que le
choix d'une haute valeur implique l'assurance de peu de hiérarchie (Morato et al, 2003, p.13).
Cette dernière hypothèse se traduit, sur un diagramme du logiciel WordMapper®, par un seul
mot dans chaque classe identifiée.
Dans le cadre du logiciel utilisé, l'algorithme n'intervint qu'à la fin d'un processus de
formatage des données qualitatives textuelles ou de discours.
Après l'étape préliminaire de post-codage des données (Rodhain, 1998 ; Remaki et al.,
1998), on peut modéliser le fonctionnement du logiciel de la sorte :
- Automate de découpage et reconnaissance des mots, analyse morphologique
(dictionnaire principal),
- reconnaissance des idiomatismes, analyse syntaxique,
- levée des homographies, reconnaissance des mots composés et expressions
contiguës, élimination des mots vides (dictionnaire des mots vides), "lemmatisation", analyse
sémantique,
- traitement des synonymes et levées des polysémies (manuellement), sélection des
mots clefs (dictionnaire thématique),
- calcul des cooccurrences (matrice de Burt, ou table de Burt généralisée) et
classification neuronale
5
.
Appliquons maintenant cet algorithme de Kohonen à des classifications de données
qualitatives issues d'entretiens puis de textes.
2- PRESENTATION DES CLASSIFICATIONS OBTENUES
Le test effectué à partir du logiciel WordMapper consiste à valider la classification
obtenue par l'algorithme sur un corpus d'énoncés verbaux puis sur des textes administratifs.
Deux genres de discours sont donc abordés. Par ailleurs, une analyse portant sur la structure
du document est également menée, à partir d'une segmentation des textes en corps de texte et
en résumés. Ce dernier point va nous permettre de comparer nos résultats à Morato et al.
(2003). Ils montrent que l'algorithme k-means n'est pas affecté par le genre de document, ni le
registre de langue du document mais par sa structure. Ils obtiennent de moins bons résultats
avec les documents de type résumés et abstracts.
La pertinence des résultats est évaluée à partir d'une comparaison entre les classes
obtenues par analyse flottante et celles obtenues par l'algorithme de classification du logiciel.
Un indice de ressemblance est utilisé pour ce faire.
A chaque fois, une sélection manuelle des termes intéressant pour l'analyse est
effectuée, lors de l'analyse flottante. En effet, c'est un algorithme de classification que l'on
teste et non la sélection de mots clefs à partir d'un corpus (cas des algorithmes N-grams par
5
Ici, assez proche d'une KACM, cf. Cottrell et Ibbou (1995).
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !