Un générateur de r`egles floues `a partir de grandes bases de

publicité
Un générateur de règles floues
à partir de grandes bases de données
Y. SCHEKTMAN
∗
J. TREJOS
†
M. TROUPÉ
‡
Mots-clés: Distances relationnelles, indice d’association dissymétrique,
composantes principales non centrées, classification, nombre équivalent
On dispose de caractères catégoriels, et on désire prédire les modalités de l’un d’entre
eux à l’aide de règles floues de la forme: Cj → yk (PCj , Pyk , Pyk /Cj ), où Cj est une
conjonction de modalités explicatives, yk une modalité du caractère à prédire, PCj (resp.
Pyk ) le pourcentage observé de Cj (resp. yk ) et Pyk /Cj le pourcentage observé de yk
sachant Cj .
Les règles sont produites par un algorithme basé sur des approximations statistiques
et euclidiennes [6]. Cet algorithme procède par étapes en analysant, à chaque étape,
des corrélations d’ordre le moins élevé possible: ainsi, à la première étape, seules les
corrélations (d’ordre deux) entre les couples de modalités explicatives sont utilisées.
Des corrélations d’ordre plus élevé sont introduites dans l’analyse en prenant en considération des conjonctions de modalités explicatives (Cj ), dont le choix dépend des
critères d’approximation statistique. On notera que le nombre équivalent (Neq) de G.
Der MEGREDITCHIAN [1] participe à ces approximations en limitant la longueur des
(Cj ).
A partir de l’ensemble des Cj analysées à chaque étape, l’algorithme construit
des groupes, non nécessairement disjoints, de Cj bien corrélés. Seuls les groupes de
cardinal supérieur à Neq sont utilisés pour générer des règles. Pour chacun de ces
groupes, les Cj et les yk sont plongés dans un espace euclidien muni d’une distance
∗
Maison de la Recherche, Université de Toulouse le Mirail
Université du Costa Rica, Université Paul Sabatier Toulouse
‡
Université Paul Sabatier Toulouse
†
1
relationnelle [4] telle que les valeurs de ces distances i) entre les Cj soient fonction des
corrélations (symétriques) observées, et ii) entre les Cj et les yk soient fonction d’indices
de corrélations dissymétriques [5]. A ce niveau, les proximités des points représentatifs
des Cj et des yk , projetés orthogonalement sur des sous-espaces principaux, mettent
en évidence (par accumulation non exclusive) des règles qui ne seront générées que si
les conditions fixées par l’utilisateur sur les pourcentages PCj , Pyk et PCj /yk sont satisfaites. Ainsi, on obtient les premisses des règles sans avoir à les introduire a priori
dans l’ensemble des conjonctions analysées, ce qui limite le nombre de conjonctions à
examiner.
Des générateurs de règles, utilisant des techniques relevant de l’apprentissage, sont proposés notamment par [2, 3]. Les résultats de notre algorithme ne dépendent pas de
l’ensemble des exemples, comme c’est le cas dans [2]. On a observé sur les jeux de
données traités que la complexité de l’algorithme est linéaire relativement aux exemples alors que celui de [3] est de complexité quadratique. Il semble, par contre, être de
complexité exponentielle relativement aux modalités.
References
[1] Der Megreditchian, G. L’optimisation des réseaux d’observation des
champs météorologiques. La météorologie,VI,n17,Paris 1979.
[2] Ho Tu Bao et al.. Généralisation de règles d’expertise à partir
d’observations. In : Actes des I Journées Symboliques-Numériques,
Paris, 1987.
[3] Ralambondrainy, H. GENREG un générateur de règles combinant techniques d’apprentissage et techniques d’Analyse des Données. In : Actes
des I Journées Symboliques-Numériques, Paris, 1987.
[4] Schektman, Y. Contribution à la mesure en facteurs dans les sciences
expérimentales et à la mise en œuvre automatique dans les calculs statistiques. Thèse d’Etat, 1978.
[5] Schektman, Y. A general euclidean approach for measuring and describing associations between several sets of variables. Proceedings of the 1st
French-Japanese Sem., 31-42, Tokyo, 1987.
[6] Schektman, Y. Euclidean approach and statistical approximations for
generating weighted knowledge rules from large set of data. Studien zur
Klassification, Bd.19(1989),p.328-330.
2
Téléchargement