Page 3
1 - Introduction
L'Extraction de Connaissances à partir de Données (ECD), communément appelée DATA MINING, est
un domaine aujourd'hui très en vogue.
On la définit comme "un processus non-trivial d ’identification de structures inconnues, valides et
potentiellement exploitables dans les bases de données (Fayyad, 1996)".
Le datamining consiste en l'étude statistique d'un volume important de données. Ce domaine qui
s'apparente finalement à un ensemble de techniques couvre les besoins rencontrés dans un grand
nombres de situations, concernant presque tous les métiers.
Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant
de la gestion de relation client à de la maintenance préventive, en passant par de la détection de
fraudes ou encore de l'optimisation de sites web
Le web est un terrain qui accueille de plus en plus le datamining : parce que beaucoup de données y
sont brassées, mais aussi du fait de l'équipement en technologies informatiques récentes propices à
l'hébergement de calculs de grande envergures.
L’analyse de données symboliques est actuellement la nouvelle tendance d’analyse de données.
SODAS est l’un des logiciels fares de cette technique ‘analyse de données. Nous allons donc tenter
d’appliquer les méthodes proposées par cet outil sur une base de donnée choisie.
Le logiciel SODAS peut apporter des informations complementaires à celles qui sont fournies par les
logiciels classiques de Statistiques, Analyse des données ou Data Mining et permet d’analyser les
catégories ou "concepts" issues de données classiques et pas seulement les unités statistiques
habituelles.
Pour décrire ces catégories qui proviennent de domaines les plus divers on doit utiliser des données
plus complexes que les données habituelles. Ces données sont dites symboliques car les variables qui
décrivent les concepts peuvent être de valeur intervalle, distribution, suite de valeurs, afin de
prendre en compte la variation des valeurs des unités statistiques à l'intérieur de chaque catégorie.
Le logiciel SODAS permet d'abord de construire les description des catégories par un processus de
généralisation automatique.
Il permet ensuite, d'analyser les données symboliques ainsi obtenues en tendant les grands outils de
l'Analyse des données Exploratoires et du Data Mining à ce type de données plus complexes:
statistiques descriptives et représentations graphiques, classification automatique, arbres de
décision, analyse factorielle, extraction de régles.