Chapitre 1
Taxonomie des techniques de visualisation de données
1. Introduction
Dans le cas de la fouille de données, l'être humain ne cherche plus à comprendre un environnement
global, mais plutôt à comprendre une partie de cet environnement. A cet effet, il est à la recherche
de structures, de caractéristiques, de motifs, de tendances, d'anomalies ou, de manière plus
générale, de la présence ou de l'absence de relations dans les données.
Depuis plus d'un demi-siècle, cette analyse manuelle des données, effectuée dans le but d'en extraire
des connaissances, n'est plus réalisable à la main. En effet, du fait de la multiplication des paramètres
pris en compte et de la multiplication des mesures effectuées, la quantité d'information à traiter a
rendu obligatoire l'utilisation de méthodes pour les analyser.
Le traitement purement automatique de ces informations afin d'en extraire des connaissances se
nomme la « fouille de données » ou data mining. Bien que permettant une automatisation de
l'analyse, la fouille de données n'est pas la solution parfaite au problème de la compréhension des
données. En effet, très souvent, les algorithmes de fouilles de données, aussi sophistiqués qu'ils
soient, ne parviennent pas à extraire la totalité des informations pertinentes. Pour résoudre ce
problème, une solution viable consiste à présenter graphiquement les données de manière à
permettre à la fois de guider, par l'interaction, une extraction de connaissances (automatique ou
manuelle) et de permettre la transmission des connaissances à l'expert en l'aidant à construire sa
carte mentale des données. Ainsi, on parlera de fouille visuelle de données ou de visual data mining.
Le rôle de la visualisation dans la fouille visuelle de données peut se résumer en plusieurs points
principaux. Elle permet d'afficher une grande quantité de données, fournissant de ce fait une vue
d'ensemble des données. Elle permet automatiquement, ou par interaction, de résumer et annoter
des données La visualisation permet également de détecter des sous-ensembles de données où il est
intéressant d'appliquer tel ou tel outil de fouille de données ou de fouille visuelle de données de
manière plus précise.
D'un autre côté, l'expert cherchant à analyser les données peut ne pas savoir ce qu'il cherche. Dans
ce cas, le choix d'un algorithme de fouille de données est difficile à faire. La visualisation trouve alors
son intérêt grâce à l'interaction, permettant à l'utilisateur d'établir une carte mentale des données et
de rechercher des structures. L'interaction de l'utilisateur avec la visualisation tient un rôle très
important. L'interaction permet, entre autres, la navigation dans les données (vue sous différents
angles), l'interrogation des données (réduction de l'affichage ou de caractéristiques d'affichage à une
portion de l'espace) et l'association de données entre elles (marquages, simplification, réduction, ... ).
2. Historique ( Voir la présentation : 1-Histoire.pdf )
La visualisation d'information permet de faciliter l'abstraction des informations dans les données.
3. Définitions et structure générale d'un système de visualisation d'information
3.1 Définitions
Une visualisation, c'est l'ensemble des moyens graphiques autres que ceux textuels ou ceux verbaux
utilisés dans le but de communiquer des informations.
L'interaction regroupe l'ensemble des moyens mis à disposition de l'utilisateur et l'ensemble des
actions de l'utilisateur permettant d'ajuster une visualisation de manière interactive.
Un attribut graphique est un aspect élémentaire d'une visualisation contrôlable par l'utilisateur
définissant les caractéristiques de la représentation (position, taille, couleur, forme, orientation,
vitesse, texture, transparence, ...).
La mise en correspondance ou mapping est l'opération qui consiste à définir la façon dont les
attributs des données sont associés aux attributs graphiques.
La normalisation des données est l'opération qui consiste à -échelonner les valeurs prises par les
différents attributs des données dans un intervalle donné. Il est possible de définir principalement
trois types de normalisation:
a)- la normalisation locale : chaque dimension est ramenée dans l'intervalle [0,1] ou [—1,1]. Ce type
de normalisation confère un poids égal à chacune des dimensions ;
b)- la normalisation globale : toutes les dimensions sont -échelonnées dans l'intervalle [m, M] en
désignant par m le minimum (respectivement M le maximum) des valeurs sur toutes les dimensions.
Ce type de normalisation donne un poids plus important à la dimension qui a la plus grande valeur ;
c)- la normalisation pondérée : seules les dimensions qui ont un sens équivalent sont normalisées
simultanément.
3.2 Structure générale d'un système de visualisation d'information
Le processus de visualisation d'information est un processus en cinq étapes interagissant entre elles :
L'étape suivante consiste à traduire les données et la mise en correspondance en une représentation
permettant l'analyse;
La dernière étape est l'analyse de l'utilisateur. Cette étape est cruciale, car c'est à ce moment que
l'on permet à l'utilisateur d'ajuster les différents paramètres du processus de visualisation, afin de lui
permettre d'explorer les données.
Figure 1 : Processus de visualisation
d’information
Les deux premières étapes sont l'acquisition et la
préparation des informations. Après l'acquisition des
données ayant pour origines des expérimentations, des
observations, voire des expérimentations numériques ou
des simulations, il est nécessaire de transformer ces
données dans une forme compréhensible par la
méthode de visualisation. Pendant la transformation, les
données peuvent être filtrées, lissées, enrichies et/ou
normalisées, afin d'améliorer la visualisation;
La troisième étape du processus consiste en la définition
de la mise en correspondance entre les données et les
éléments de la visualisation ;
4. Les principaux systèmes de classification en visualisation de l’information
Les principaux systèmes de classification en visualisation de l’information ont été construits autour
de trois axes : le type des données, les traitements et les tâches.
4.1 Le type des données (Taxonomie de Shneiderman)
La littérature sur la visualisation de l’information fait souvent référence aux travaux de Bertin
sur l’étude de lamiologie graphique qui suggèrent que la forme de la représentation utilisée
dépend du type des données à afficher. Selon Bertin, les données peuvent se représenter sous deux
formes, soit en fonction de leur valeur, soit en fonction de leur structure. Les valeurs sont associées
aux attributs (numériques, thématiques, etc.) inhérents à un problème. La structure comprend les
relations (liens, contraintes) qui caractérisent les données comme un tout. A chacune de ces formes
(et pour un type de données particulier) doit être associée une représentation graphique différente.
Par exemple, un histogramme peut représenter des valeurs d’attributs, alors qu’un diagramme
d’arbre représente les relations structurelles à l’intérieur d’un ensemble de données.
A partir des observations de Bertin, plusieurs taxonomies ont été construites en fonction du
type des données à représenter. Parmi celles-ci, une des plus connues est celle de Shneiderman qui
résume les principes de base de la conception visuelle par ce que l’auteur appelle ‘Visual Information
Seeking Mantra : overview first, zoom and filter, then details-on-demand’. Elle est définie comme
une taxonomie de « tâche par type de données » : en plus des sept types de données décrits dans le
tableau 1 ci-dessous, cette taxonomie prend en compte un ensemble de tâches que la représentation
doit s’efforcer de faciliter.
Types de données
Description
1D
Données organisées de manière linéaire ou séquentielle : documents
textuels, lignes de code d’un programme, listes alphabétiques, etc.
2D
Données dont la localisation ou la géométrie dans le plan est primordiale :
plans, cartes géographiques, mise en page de journaux, etc.
3D
Données qui accordent une prédominance à la localisation ou la géométrie
dans l’espace : chimie, architecture, mécanique, etc.
Temporelles
Données qui ont une existence dans le temps : gestion de projet, suivi
médical, etc.
Multidimensionnelles
Données dont le caractère spatial n’est pas dominant et qui possèdent un
nombre d’attributs n : données statistiques, contenu de bases de données,
etc.
Hiérarchiques
Données organisées de manière à ce que chaque entité possède un lien
unique vers une entité parent (à l’exception de la racine) : système de
fichiers, GUI, etc.
Relationnelles
Données qui forment un graphe dont la structure n’est pas arborescente :
hyperdocuments, réseaux télécoms, etc.
Tableau 1 : Types de données dans la taxonomie de Shneiderman.
Tâches
Description
Donner une vue d’ensemble
Obtenir une vue globale sur la collection entière.
Zoomer
Zoomer sur une entité jugée intéressante.
Filtrer
Eliminer de la vue les données non pertinentes à un moment
donné.
Détailler à la demande
Sélectionner une entité ou un groupe et en visualiser les détails
si besoin.
Associer
Visualiser les relations entre les éléments.
Fournir l’historique
Tracer un historique afin de supporter l’annulation d’une ou
plusieurs commandes, le retour arrière, le play-back, etc.
Extraire
Permettre la sauvegarde de sous-collections et de paramètres
de requêtes.
Tableau 2 : Tâches dans la taxonomie de Shneiderman.
4.2 Les traitements (Taxonomie de Leung)
Un autre type d’approche pour classifier les systèmes de visualisation repose sur l’analyse
des différents traitements proposés par ces systèmes. Un exemple possible concerne l’analyse des
interactions en entrée, la classification s’effectuant en fonction de leur nature (sélection par
manipulation directe ou indirecte), de leur niveau (singleton, groupe ou intégralité des objets ou des
attributs) et de leur conséquence en terme de transformation graphique, de présentation et
d’organisation. Plusieurs approches orientées traitements ont été proposées. Parmi celles-ci, la
taxonomie de Leung classe les systèmes de visualisation en fonction des techniques utilisées pour
faire évoluer la représentation au cours de l’exploration.
Leung classe les systèmes de visualisation en deux catégories en fonction des techniques
utilisées pour accéder à l’information. La première catégorie regroupe l’ensemble des techniques qui
permettent de déformer la représentation, la seconde regroupe les techniques non déformantes. La
principale caractéristique des techniques de déformation consiste à permettre aux utilisateurs
d’examiner en détail une région particulière de la représentation tout en gardant une vision globale
de l’espace, ceci afin de faciliter la navigation. Leung affine cette classification en différenciant les
données de nature graphique (i.e. qui possèdent des relations spatiales implicites), des données non
graphiques, ces dernières pouvant toutefois être représentées sous une forme graphique abstraite
dans de nombreux cas. Les cartes et les plans sont de bons exemples de données graphiques, alors
qu’un graphe hypertexte correspond à une donnée non graphique.
La méthode utilisée pour transformer la représentation semble être un critère de classification bien
adapté à l’exploration hyper-documentaire. Par exemple, l’utilisateur peut visualiser une
représentation globale pour comprendre l’organisation des documents, puis passer à une vue locale
montrant le détail de certains documents afin de trouver celui qui l’intéresse le plus. Le passage du
global au local peut être réalisé de plusieurs manières, notamment au moyen d’une déformation de
l’affichage ou d’un zoom.
4.3 Les tâches (Taxonomie de Bruley)
L’usage des données conditionne souvent la représentation de ces données. Cependant, peu
de taxonomies existantes se basent sur l’analyse des tâches que les systèmes de visualisation
permettent d’effectuer. La taxonomie de Shneiderman, décrite à la section 4.1, repose en partie sur
la définition d’un ensemble de tâches de bas niveaux (zoomer, filtrer, associer, extraire, etc.). Cette
étude masque toutefois l’importance des tâches de haut niveau (trouver, comprendre, organiser,
retrouver) dans le processus de conception d’un système de visualisation. Selon Bruley, la manière
de représenter des données dépend fortement des tâches que l’utilisateur souhaite effectuer sur ces
données. Il introduit donc la notion de point de vue, un même ensemble de données pouvant être
représenté par différents points de vues.
Sur la base des travaux de Shneiderman, Bruley définit donc une taxonomie induite par le
point de vue sur les données, plutôt que par leur type. Il met en avant la manière de représenter
l’organisation des données plutôt que leur organisation réelle. Bruley propose deux nouvelles
catégories (le point de vue spatial et le point de vue non structuré), afin de séparer les données de
type 1D, 2D, 3D et nD qui ont une géométrie, de celles qui n’en ont pas. Cette séparation est
d’ailleurs à rapprocher de celle proposée par Leung sur les données graphiques et non graphiques.
Bruley déduit de son étude une démarche à suivre pour la conception de représentations graphiques
qui est basée sur quatre éléments :
l’espace des informations qui contient les données à représenter,
le (ou les) point(s) de vue qui résulte(nt) de l’analyse de cet espace et de la nature de la
tâche à réaliser,
l’espace géométrique de représentation qui fixe la position des objets graphiques,
l’espace géométrique de construction qui est la sous-partie de l’espace de représentation
réellement affichée.
Figure 2 : Taxonomie de Leung
1 / 12 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !