Taxonomie des techniques de visualisation de données

Telechargé par rahmanimine

Téléchargement

Chapitre 1

1. Introduction

Dans le cas de la fouille de données, l'être humain ne cherche plus à comprendre un environnement

global, mais plutôt à comprendre une partie de cet environnement. A cet effet, il est à la recherche

de structures, de caractéristiques, de motifs, de tendances, d'anomalies ou, de manière plus

générale, de la présence ou de l'absence de relations dans les données.

Depuis plus d'un demi-siècle, cette analyse manuelle des données, effectuée dans le but d'en extraire

des connaissances, n'est plus réalisable à la main. En effet, du fait de la multiplication des paramètres

pris en compte et de la multiplication des mesures effectuées, la quantité d'information à traiter a

rendu obligatoire l'utilisation de méthodes pour les analyser.

Le traitement purement automatique de ces informations afin d'en extraire des connaissances se

nomme la « fouille de données » ou data mining. Bien que permettant une automatisation de

l'analyse, la fouille de données n'est pas la solution parfaite au problème de la compréhension des

données. En effet, très souvent, les algorithmes de fouilles de données, aussi sophistiqués qu'ils

soient, ne parviennent pas à extraire la totalité des informations pertinentes. Pour résoudre ce

problème, une solution viable consiste à présenter graphiquement les données de manière à

permettre à la fois de guider, par l'interaction, une extraction de connaissances (automatique ou

manuelle) et de permettre la transmission des connaissances à l'expert en l'aidant à construire sa

carte mentale des données. Ainsi, on parlera de fouille visuelle de données ou de visual data mining.

Le rôle de la visualisation dans la fouille visuelle de données peut se résumer en plusieurs points

principaux. Elle permet d'afficher une grande quantité de données, fournissant de ce fait une vue

d'ensemble des données. Elle permet automatiquement, ou par interaction, de résumer et annoter

des données La visualisation permet également de détecter des sous-ensembles de données où il est

intéressant d'appliquer tel ou tel outil de fouille de données ou de fouille visuelle de données de

manière plus précise.

D'un autre côté, l'expert cherchant à analyser les données peut ne pas savoir ce qu'il cherche. Dans

ce cas, le choix d'un algorithme de fouille de données est difficile à faire. La visualisation trouve alors

son intérêt grâce à l'interaction, permettant à l'utilisateur d'établir une carte mentale des données et

de rechercher des structures. L'interaction de l'utilisateur avec la visualisation tient un rôle très

important. L'interaction permet, entre autres, la navigation dans les données (vue sous différents

angles), l'interrogation des données (réduction de l'affichage ou de caractéristiques d'affichage à une

portion de l'espace) et l'association de données entre elles (marquages, simplification, réduction, ... ).

2. Historique ( Voir la présentation : 1-Histoire.pdf )

La visualisation d'information permet de faciliter l'abstraction des informations dans les données.

3. Définitions et structure générale d'un système de visualisation d'information

3.1 Définitions

Une visualisation, c'est l'ensemble des moyens graphiques autres que ceux textuels ou ceux verbaux

utilisés dans le but de communiquer des informations.

L'interaction regroupe l'ensemble des moyens mis à disposition de l'utilisateur et l'ensemble des

actions de l'utilisateur permettant d'ajuster une visualisation de manière interactive.

Un attribut graphique est un aspect élémentaire d'une visualisation contrôlable par l'utilisateur

définissant les caractéristiques de la représentation (position, taille, couleur, forme, orientation,

vitesse, texture, transparence, ...).

La mise en correspondance ou mapping est l'opération qui consiste à définir la façon dont les

attributs des données sont associés aux attributs graphiques.

La normalisation des données est l'opération qui consiste à ré-échelonner les valeurs prises par les

différents attributs des données dans un intervalle donné. Il est possible de définir principalement

trois types de normalisation:

a)- la normalisation locale : chaque dimension est ramenée dans l'intervalle [0,1] ou [—1,1]. Ce type

de normalisation confère un poids égal à chacune des dimensions ;

b)- la normalisation globale : toutes les dimensions sont ré-échelonnées dans l'intervalle [m, M] en

désignant par m le minimum (respectivement M le maximum) des valeurs sur toutes les dimensions.

Ce type de normalisation donne un poids plus important à la dimension qui a la plus grande valeur ;

c)- la normalisation pondérée : seules les dimensions qui ont un sens équivalent sont normalisées

simultanément.

3.2 Structure générale d'un système de visualisation d'information

Le processus de visualisation d'information est un processus en cinq étapes interagissant entre elles :

L'étape suivante consiste à traduire les données et la mise en correspondance en une représentation

permettant l'analyse;

La dernière étape est l'analyse de l'utilisateur. Cette étape est cruciale, car c'est à ce moment que

l'on permet à l'utilisateur d'ajuster les différents paramètres du processus de visualisation, afin de lui

permettre d'explorer les données.

Figure 1 : Processus de visualisation

d’information

Les deux premières étapes sont l'acquisition et la

préparation des informations. Après l'acquisition des

données ayant pour origines des expérimentations, des

observations, voire des expérimentations numériques ou

des simulations, il est nécessaire de transformer ces

données dans une forme compréhensible par la

méthode de visualisation. Pendant la transformation, les

données peuvent être filtrées, lissées, enrichies et/ou

normalisées, afin d'améliorer la visualisation;

La troisième étape du processus consiste en la définition

de la mise en correspondance entre les données et les

éléments de la visualisation ;

4. Les principaux systèmes de classification en visualisation de l’information

Les principaux systèmes de classification en visualisation de l’information ont été construits autour

de trois axes : le type des données, les traitements et les tâches.

4.1 Le type des données (Taxonomie de Shneiderman)

La littérature sur la visualisation de l’information fait souvent référence aux travaux de Bertin

sur l’étude de la sémiologie graphique qui suggèrent que la forme de la représentation utilisée

dépend du type des données à afficher. Selon Bertin, les données peuvent se représenter sous deux

formes, soit en fonction de leur valeur, soit en fonction de leur structure. Les valeurs sont associées

aux attributs (numériques, thématiques, etc.) inhérents à un problème. La structure comprend les

relations (liens, contraintes) qui caractérisent les données comme un tout. A chacune de ces formes

(et pour un type de données particulier) doit être associée une représentation graphique différente.

Par exemple, un histogramme peut représenter des valeurs d’attributs, alors qu’un diagramme

d’arbre représente les relations structurelles à l’intérieur d’un ensemble de données.

A partir des observations de Bertin, plusieurs taxonomies ont été construites en fonction du

type des données à représenter. Parmi celles-ci, une des plus connues est celle de Shneiderman qui

résume les principes de base de la conception visuelle par ce que l’auteur appelle ‘Visual Information

Seeking Mantra : overview first, zoom and filter, then details-on-demand’. Elle est définie comme

une taxonomie de « tâche par type de données » : en plus des sept types de données décrits dans le

tableau 1 ci-dessous, cette taxonomie prend en compte un ensemble de tâches que la représentation

doit s’efforcer de faciliter.

Types de données

Description

Données organisées de manière linéaire ou séquentielle : documents

textuels, lignes de code d’un programme, listes alphabétiques, etc.

Données dont la localisation ou la géométrie dans le plan est primordiale :

plans, cartes géographiques, mise en page de journaux, etc.

Données qui accordent une prédominance à la localisation ou la géométrie

dans l’espace : chimie, architecture, mécanique, etc.

Temporelles

Données qui ont une existence dans le temps : gestion de projet, suivi

médical, etc.

Multidimensionnelles

Données dont le caractère spatial n’est pas dominant et qui possèdent un

nombre d’attributs n : données statistiques, contenu de bases de données,

etc.

Hiérarchiques

Données organisées de manière à ce que chaque entité possède un lien

unique vers une entité parent (à l’exception de la racine) : système de

fichiers, GUI, etc.

Relationnelles

Données qui forment un graphe dont la structure n’est pas arborescente :

hyperdocuments, réseaux télécoms, etc.

Tableau 1 : Types de données dans la taxonomie de Shneiderman.

Tâches

Description

Donner une vue d’ensemble

Obtenir une vue globale sur la collection entière.

Zoomer

Zoomer sur une entité jugée intéressante.

Filtrer

Eliminer de la vue les données non pertinentes à un moment

donné.

Détailler à la demande

Sélectionner une entité ou un groupe et en visualiser les détails

si besoin.

Associer

Visualiser les relations entre les éléments.

Fournir l’historique

Tracer un historique afin de supporter l’annulation d’une ou

plusieurs commandes, le retour arrière, le play-back, etc.

Extraire

Permettre la sauvegarde de sous-collections et de paramètres

de requêtes.

Tableau 2 : Tâches dans la taxonomie de Shneiderman.

4.2 Les traitements (Taxonomie de Leung)

Un autre type d’approche pour classifier les systèmes de visualisation repose sur l’analyse

des différents traitements proposés par ces systèmes. Un exemple possible concerne l’analyse des

interactions en entrée, la classification s’effectuant en fonction de leur nature (sélection par

manipulation directe ou indirecte), de leur niveau (singleton, groupe ou intégralité des objets ou des

attributs) et de leur conséquence en terme de transformation graphique, de présentation et

d’organisation. Plusieurs approches orientées traitements ont été proposées. Parmi celles-ci, la

taxonomie de Leung classe les systèmes de visualisation en fonction des techniques utilisées pour

faire évoluer la représentation au cours de l’exploration.

Leung classe les systèmes de visualisation en deux catégories en fonction des techniques

utilisées pour accéder à l’information. La première catégorie regroupe l’ensemble des techniques qui

permettent de déformer la représentation, la seconde regroupe les techniques non déformantes. La

principale caractéristique des techniques de déformation consiste à permettre aux utilisateurs

d’examiner en détail une région particulière de la représentation tout en gardant une vision globale

de l’espace, ceci afin de faciliter la navigation. Leung affine cette classification en différenciant les

données de nature graphique (i.e. qui possèdent des relations spatiales implicites), des données non

graphiques, ces dernières pouvant toutefois être représentées sous une forme graphique abstraite

dans de nombreux cas. Les cartes et les plans sont de bons exemples de données graphiques, alors

qu’un graphe hypertexte correspond à une donnée non graphique.

La méthode utilisée pour transformer la représentation semble être un critère de classification bien

adapté à l’exploration hyper-documentaire. Par exemple, l’utilisateur peut visualiser une

représentation globale pour comprendre l’organisation des documents, puis passer à une vue locale

montrant le détail de certains documents afin de trouver celui qui l’intéresse le plus. Le passage du

global au local peut être réalisé de plusieurs manières, notamment au moyen d’une déformation de

l’affichage ou d’un zoom.

4.3 Les tâches (Taxonomie de Bruley)

L’usage des données conditionne souvent la représentation de ces données. Cependant, peu

de taxonomies existantes se basent sur l’analyse des tâches que les systèmes de visualisation

permettent d’effectuer. La taxonomie de Shneiderman, décrite à la section 4.1, repose en partie sur

la définition d’un ensemble de tâches de bas niveaux (zoomer, filtrer, associer, extraire, etc.). Cette

étude masque toutefois l’importance des tâches de haut niveau (trouver, comprendre, organiser,

retrouver) dans le processus de conception d’un système de visualisation. Selon Bruley, la manière

de représenter des données dépend fortement des tâches que l’utilisateur souhaite effectuer sur ces

données. Il introduit donc la notion de point de vue, un même ensemble de données pouvant être

représenté par différents points de vues.

Sur la base des travaux de Shneiderman, Bruley définit donc une taxonomie induite par le

point de vue sur les données, plutôt que par leur type. Il met en avant la manière de représenter

l’organisation des données plutôt que leur organisation réelle. Bruley propose deux nouvelles

catégories (le point de vue spatial et le point de vue non structuré), afin de séparer les données de

type 1D, 2D, 3D et nD qui ont une géométrie, de celles qui n’en ont pas. Cette séparation est

d’ailleurs à rapprocher de celle proposée par Leung sur les données graphiques et non graphiques.

Bruley déduit de son étude une démarche à suivre pour la conception de représentations graphiques

qui est basée sur quatre éléments :

 l’espace des informations qui contient les données à représenter,

 le (ou les) point(s) de vue qui résulte(nt) de l’analyse de cet espace et de la nature de la

tâche à réaliser,

 l’espace géométrique de représentation qui fixe la position des objets graphiques,

 l’espace géométrique de construction qui est la sous-partie de l’espace de représentation

réellement affichée.

Figure 2 : Taxonomie de Leung

1 / 12 100%

Documents connexes

Liste des logiciels utilisés dans l`ECE

Synthèse statistique de paramètres et visualisation

HPC dans le CLOUD : L`AVENIR DU CALCUL INTENSIF

Site Webuleuse

Datasheet - Micronics Systems

Echocardiographie transthoracique

MyGreenServices

Visualisation et pensée mathématique Par Hervé Lehning Abstract

Chargé.e de Projets Etudes_IFOP

Explorer Observer Analyser Interpreter Argumenter MOdéliser

programme pédagogique

L'enjeu du circuit économique local : Publications

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Taxonomie des techniques de visualisation de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Taxonomie des techniques de visualisation de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib