Un générateur de règles floues à partir de grandes bases de données Y. SCHEKTMAN ∗ J. TREJOS † M. TROUPÉ ‡ Mots-clés: Distances relationnelles, indice d’association dissymétrique, composantes principales non centrées, classification, nombre équivalent On dispose de caractères catégoriels, et on désire prédire les modalités de l’un d’entre eux à l’aide de règles floues de la forme: Cj → yk (PCj , Pyk , Pyk /Cj ), où Cj est une conjonction de modalités explicatives, yk une modalité du caractère à prédire, PCj (resp. Pyk ) le pourcentage observé de Cj (resp. yk ) et Pyk /Cj le pourcentage observé de yk sachant Cj . Les règles sont produites par un algorithme basé sur des approximations statistiques et euclidiennes [6]. Cet algorithme procède par étapes en analysant, à chaque étape, des corrélations d’ordre le moins élevé possible: ainsi, à la première étape, seules les corrélations (d’ordre deux) entre les couples de modalités explicatives sont utilisées. Des corrélations d’ordre plus élevé sont introduites dans l’analyse en prenant en considération des conjonctions de modalités explicatives (Cj ), dont le choix dépend des critères d’approximation statistique. On notera que le nombre équivalent (Neq) de G. Der MEGREDITCHIAN [1] participe à ces approximations en limitant la longueur des (Cj ). A partir de l’ensemble des Cj analysées à chaque étape, l’algorithme construit des groupes, non nécessairement disjoints, de Cj bien corrélés. Seuls les groupes de cardinal supérieur à Neq sont utilisés pour générer des règles. Pour chacun de ces groupes, les Cj et les yk sont plongés dans un espace euclidien muni d’une distance ∗ Maison de la Recherche, Université de Toulouse le Mirail Université du Costa Rica, Université Paul Sabatier Toulouse ‡ Université Paul Sabatier Toulouse † 1 relationnelle [4] telle que les valeurs de ces distances i) entre les Cj soient fonction des corrélations (symétriques) observées, et ii) entre les Cj et les yk soient fonction d’indices de corrélations dissymétriques [5]. A ce niveau, les proximités des points représentatifs des Cj et des yk , projetés orthogonalement sur des sous-espaces principaux, mettent en évidence (par accumulation non exclusive) des règles qui ne seront générées que si les conditions fixées par l’utilisateur sur les pourcentages PCj , Pyk et PCj /yk sont satisfaites. Ainsi, on obtient les premisses des règles sans avoir à les introduire a priori dans l’ensemble des conjonctions analysées, ce qui limite le nombre de conjonctions à examiner. Des générateurs de règles, utilisant des techniques relevant de l’apprentissage, sont proposés notamment par [2, 3]. Les résultats de notre algorithme ne dépendent pas de l’ensemble des exemples, comme c’est le cas dans [2]. On a observé sur les jeux de données traités que la complexité de l’algorithme est linéaire relativement aux exemples alors que celui de [3] est de complexité quadratique. Il semble, par contre, être de complexité exponentielle relativement aux modalités. References [1] Der Megreditchian, G. L’optimisation des réseaux d’observation des champs météorologiques. La météorologie,VI,n17,Paris 1979. [2] Ho Tu Bao et al.. Généralisation de règles d’expertise à partir d’observations. In : Actes des I Journées Symboliques-Numériques, Paris, 1987. [3] Ralambondrainy, H. GENREG un générateur de règles combinant techniques d’apprentissage et techniques d’Analyse des Données. In : Actes des I Journées Symboliques-Numériques, Paris, 1987. [4] Schektman, Y. Contribution à la mesure en facteurs dans les sciences expérimentales et à la mise en œuvre automatique dans les calculs statistiques. Thèse d’Etat, 1978. [5] Schektman, Y. A general euclidean approach for measuring and describing associations between several sets of variables. Proceedings of the 1st French-Japanese Sem., 31-42, Tokyo, 1987. [6] Schektman, Y. Euclidean approach and statistical approximations for generating weighted knowledge rules from large set of data. Studien zur Klassification, Bd.19(1989),p.328-330. 2