1.2 Analyse de données symboliques
1.2.1 La notion de concept et d’individu
On distingue deux niveaux d’informations dans les bases de données de très grande
taille :
- Les individus de premier ordre, en général formés par un ‘’tuple’’ dans la base de
données.
- Les individus de second ordre, ou ‘’concepts’’ qui rassemblent une grande quantité
d’informations obtenues par classification automatique ou par une requête.
1.2.2 Les objets symboliques
Résumer les bases de données de taille parfois gigantesque par leurs concepts
sous-jacents de façon à en extraire des connaissances nouvelles constitue une
tâche d'importance grandissante.
Ces concepts qu'ils soient fournis (une région, un groupe socio-économique, un type
d'entreprise,…) ou obtenu par classification automatique (nuées dynamiques,
hiérarchie, pyramide, treillis de concepts) peuvent seulement être décrits par des
données plus complexes dites "symboliques" où les propriétés peuvent s'exprimer
par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des
histogrammes ou des valeurs multiples munies de règles et de taxonomies.
Les concepts sont modélisés ici par des ‘’objets symboliques’’ booléens ou modaux
qui permettent non seulement de les décrire par leurs propriétés communes
(booléennes, probabilistes, etc.) mais aussi de calculer leur extension dans
l'ensemble des individus qu'ils représentent (des habitants, des employés, des
entreprises,…).
1.2.3 Les avantages de l’analyse de données symboliques par rapport à
l’analyse statistique de données
L’analyse de données symboliques présente principalement l’avantage de s’attaquer
à des données plus complexes que l’analyse statistique de données simple.
Elle fournit ainsi des renseignements nouveaux sous formes d’objet symboliques sur
lesquelles elle peut utiliser des outils adaptés.
Elle peut ainsi faire des représentations graphiques décrivant ces objets selon
différentes méthodes et différentes représentations.
Grâce à toutes ces techniques, la base est plus riche et expliquée de manière plus
claire et plus synthétique.
Les objets symboliques formés à partir de la base par les outils de l'analyse des
données symboliques permettent de définir des requêtes et donc de fournir des
questions qui peuvent être pertinentes.