PROGRAMME de formation en
Analyse de Données Symboliques
organisé par
Laboratoire CEREMADE - Université PARIS - Dauphine
6 & 7 décembre 2004
ORGANISATEURS: Edwin Diday, Myriam Touati
OBJECTIFS: Le logiciel SODAS peut apporter des informations
complémentaires à celles qui sont fournies par les logiciels
classiques de Statistiques, Analyse des données ou Data Mining.
Issu des efforts conjoints de 17 équipes européennes dans le
cadre d’un projet soutenu par EUROSTAT, il permet d’analyser
les catégories ou "concepts" issues de données classiques et pas
seulement les unités statistiques habituelles. Pour décrire ces
catégories (villes, types de consommateurs, de patients, d'usager
du web,…) qui proviennent de domaines les plus divers (données
d'enquêtes, données de statistiques officielles, démographie,
épistémologie, bio-technologie, web mining, text mining, etc.),
on doit utiliser des données plus complexes que les données
habituelles. Ces données sont dites symboliques (i.e. non
purement numériques) car les variables qui décrivent les
concepts peuvent être à valeur intervalle, distribution, suite de
valeurs, etc… munies de règles et de taxonomies, afin de prendre
en compte la variation des valeurs des unités statistiques à
l'intérieur de chaque catégorie. Le logiciel SODAS permet
d'abord de construire les description des catégories par un
processus de généralisation automatique. Il permet ensuite,
d'analyser les données symboliques ainsi obtenues en étendant
les grands outils de l'Analyse des données Exploratoires et du
Data Mining à ce type de données plus complexes: statistiques
descriptives et représentations graphiques, classification
automatique, arbres de décision, analyse factorielle, extraction de
règles etc.
À partir de données observées, qui peuvent être de très grande
taille, l’Analyse de Données Symboliques et son logiciel
SODAS constituent un nouvel outil pour extraire des
connaissances, résumer les bases de données, les concaténer,
protéger leur confidentialité, en extraire une vue concise et
structurée, ainsi que des représentations facilement interprétables
par l'utilisateur. Les thèmes privilégiés étant la recherche d'une
structure de classification, l'extraction de nouveaux concepts et
leur description qui peuvent à leur tour être analysés ou
comparés d'une base à une autre.
A l’issue de cette formation, les participants sont capables de :
Comprendre la terminologie, les concepts et la logique
interne de l’analyse de données symboliques
D’effectuer une analyse sur des données complexes
METHODES: Exposé général sur les méthodes de l’A.D.S.
Présentation d’applications de ces méthodes
Atelier sur PC pour l’apprentissage de la prise en main
de ce logiciel sur des données des participants.