Un g´en´erateur de r`egles floues
`a partir de grandes bases de donn´ees
Y. SCHEKTMAN J. TREJOS M. TROUP´
E
Mots-cl´es: Distances relationnelles, indice d’association dissym´etrique,
composantes principales non centr´ees, classification, nombre ´equivalent
On dispose de caract`eres cat´egoriels, et on d´esire pr´edire les modalit´es de l’un d’entre
eux `a l’aide de r`egles floues de la forme: Cjyk(PCj,P
yk,P
yk/Cj), o`uCjest une
conjonction de modalit´es explicatives, ykune modalit´e du caract`ere `a pr´edire, PCj(resp.
Pyk) le pourcentage observ´edeCj(resp. yk)etPyk/Cjle pourcentage observ´edeyk
sachant Cj.
Les r`egles sont produites par un algorithme bas´e sur des approximations statistiques
et euclidiennes [6]. Cet algorithme proc`ede par ´etapes en analysant, `a chaque ´etape,
des corr´elations d’ordre le moins ´elev´e possible: ainsi, `a la premi`ere ´etape, seules les
corr´elations (d’ordre deux) entre les couples de modalit´es explicatives sont utilis´ees.
Des corr´elations d’ordre plus ´elev´e sont introduites dans l’analyse en prenant en con-
sid´eration des conjonctions de modalit´es explicatives (Cj), dont le choix d´epend des
crit`eres d’approximation statistique. On notera que le nombre ´equivalent (Neq)deG.
Der MEGREDITCHIAN [1] participe `a ces approximations en limitant la longueur des
(Cj).
A partir de l’ensemble des Cjanalys´ees `a chaque ´etape, l’algorithme construit
des groupes, non n´ecessairement disjoints, de Cjbien corr´el´es. Seuls les groupes de
cardinal sup´erieur `a Neq sont utilis´es pour g´en´erer des r`egles. Pour chacun de ces
groupes, les Cjet les yksont plong´es dans un espace euclidien muni d’une distance
Maison de la Recherche, Universit´e de Toulouse le Mirail
Universit´e du Costa Rica, Universit´e Paul Sabatier Toulouse
Universit´e Paul Sabatier Toulouse
1
relationnelle [4] telle que les valeurs de ces distances i) entre les Cjsoient fonction des
corr´elations (sym´etriques) observ´ees, et ii) entre les Cjet les yksoient fonction d’indices
de corr´elations dissym´etriques [5]. A ce niveau, les proximit´es des points repr´esentatifs
des Cjet des yk, projet´es orthogonalement sur des sous-espaces principaux, mettent
en ´evidence (par accumulation non exclusive) des r`egles qui ne seront g´en´er´ees que si
les conditions fix´ees par l’utilisateur sur les pourcentages PCj,P
yket PCj/yksont sat-
isfaites. Ainsi, on obtient les premisses des r`egles sans avoir `a les introduire a priori
dans l’ensemble des conjonctions analys´ees, ce qui limite le nombre de conjonctions `a
examiner.
Des g´en´erateurs de r`egles, utilisant des techniques relevant de l’apprentissage, sont pro-
pos´es notamment par [2, 3]. Les r´esultats de notre algorithme ne d´ependent pas de
l’ensemble des exemples, comme c’est le cas dans [2]. On a observ´e sur les jeux de
donn´ees trait´es que la complexit´e de l’algorithme est lin´eaire relativement aux exem-
ples alors que celui de [3] est de complexit´e quadratique. Il semble, par contre, ˆetre de
complexit´e exponentielle relativement aux modalit´es.
References
[1] Der Megreditchian, G. L’optimisation des eseaux d’observation des
champs m´et´eorologiques.Lam´et´eorologie,VI,n17,Paris 1979.
[2] Ho Tu Bao et al..en´eralisation de r`egles d’expertise `a partir
d’observations. In : Actes des I Journ´ees Symboliques-Num´eriques,
Paris, 1987.
[3] Ralambondrainy, H. GENREG un g´en´erateur de r`egles combinant tech-
niques d’apprentissage et techniques d’Analyse des Donn´ees. In : Actes
des I Journ´ees Symboliques-Num´eriques, Paris, 1987.
[4] Schektman, Y. Contribution `a la mesure en facteurs dans les sciences
exp´erimentales et `a la mise en œuvre automatique dans les calculs statis-
tiques.Th`ese d’Etat, 1978.
[5] Schektman, Y. A general euclidean approach for measuring and describ-
ing associations between several sets of variables. Proceedings of the 1st
French-Japanese Sem., 31-42, Tokyo, 1987.
[6] Schektman, Y. Euclidean approach and statistical approximations for
generating weighted knowledge rules from large set of data. Studien zur
Klassification, Bd.19(1989),p.328-330.
2
1 / 2 100%