Master II Informatique Décisionnelle
2007/2008
Analyse de données sur les 100 meilleurs films
de tous les temps
PROJET SODAS
Elaboré par :
Mounia BOURDACHE
Veronica BRANISTE PLAUT
… the only way to have an instructive and natural method, is to put together things
that resemble, and to separate from each other the things that are differents
( Georges Louis Leclerc, Comte de Buffon, Histoire Naturelle, 1749)
Page 2
Projet SODAS
TABLE DES MATIERES
1 - Introduction ................................................................................................................................ 3
2 - Présentation du Datamining ...................................................................................................... 4
3 - L’analyse de données symboliques ............................................................................................ 5
4 - Présentation du logiciel SODAS .................................................................................................. 9
5 - L’étude sous SODAS : Base de données ................................................................................... 13
6 - La méthode DB2SO : extraction des données symboliques ..................................................... 17
7 - La méthode SOE (Symbolic Object Editor) ............................................................................... 22
8 - La méthode TREE (Decision Tree) ............................................................................................ 27
9 - La méthode DIV (Divisive Clustering on Symbolic Objects) ..................................................... 33
10 - La méthode PCM (Principal Component Analysis) ................................................................... 37
11 - La méthode PYR (Pyramidale Clustering on Symbolic Objects) ............................................... 40
12 - La méthode STAT ...................................................................................................................... 42
13 - La méthode D STAT ................................................................................................................. 46
14 - La méthode DIM ...................................................................................................................... 47
15 - La méthode DI ......................................................................................................................... 48
16 - La méthode SYKSOM ............................................................................................................... 49
17 - La méthode HIPYR ................................................................................................................... 53
18 - La méthode SCLUST ................................................................................................................. 53
19 - La méthode VIEW .................................................................................................................... 57
20 - La méthode DISS ...................................................................................................................... 57
21 - Comparaisons entre les méthodes ........................................................................................... 60
22 - Conclusion ................................................................................................................................ 62
23 - Bibliographie ............................................................................................................................ 63
Page 3
Projet SODAS
1 - Introduction
L'Extraction de Connaissances à partir de Données (ECD), communément appelée DATA MINING, est
un domaine aujourd'hui très en vogue.
On la définit comme "un processus non-trivial d ’identification de structures inconnues, valides et
potentiellement exploitables dans les bases de données (Fayyad, 1996)".
Le datamining consiste en l'étude statistique d'un volume important de données. Ce domaine qui
s'apparente finalement à un ensemble de techniques couvre les besoins rencontrés dans un grand
nombres de situations, concernant presque tous les métiers.
Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant
de la gestion de relation client à de la maintenance préventive, en passant par de la détection de
fraudes ou encore de l'optimisation de sites web
Le web est un terrain qui accueille de plus en plus le datamining : parce que beaucoup de données y
sont brassées, mais aussi du fait de l'équipement en technologies informatiques récentes propices à
l'hébergement de calculs de grande envergures.
L’analyse de données symboliques est actuellement la nouvelle tendance d’analyse de données.
SODAS est l’un des logiciels fares de cette technique ‘analyse de données. Nous allons donc tenter
d’appliquer les méthodes proposées par cet outil sur une base de donnée choisie.
Le logiciel SODAS peut apporter des informations complementaires à celles qui sont fournies par les
logiciels classiques de Statistiques, Analyse des données ou Data Mining et permet d’analyser les
catégories ou "concepts" issues de données classiques et pas seulement les unités statistiques
habituelles.
Pour décrire ces catégories qui proviennent de domaines les plus divers on doit utiliser des données
plus complexes que les données habituelles. Ces données sont dites symboliques car les variables qui
décrivent les concepts peuvent être de valeur intervalle, distribution, suite de valeurs, afin de
prendre en compte la variation des valeurs des unités statistiques à l'intérieur de chaque catégorie.
Le logiciel SODAS permet d'abord de construire les description des catégories par un processus de
généralisation automatique.
Il permet ensuite, d'analyser les données symboliques ainsi obtenues en tendant les grands outils de
l'Analyse des données Exploratoires et du Data Mining à ce type de données plus complexes:
statistiques descriptives et représentations graphiques, classification automatique, arbres de
cision, analyse factorielle, extraction de régles.
Page 4
Projet SODAS
Notre base de données comprend plusieurs informations concernant les meilleures films de touts
les temps.
Pour répondre à notre problématique nous allons suivre les étapes d’analyse suivantes :
-Préparation de la base de données.
-Amélioration de la base de données.
-Définition des concepts et des individus.
-Import des données dans SODAS.
-Application des différentes méthodes SODAS et interprétation des résultats.
2 - Présentation du Datamining
Le Data Mining est un processus d'extraction de connaissances valides et exploitables à partir de
grands volumes de données.
Il a vocation à être utilisé dans un environnement professionnel et se distingue de l'analyse de
données et de la statistique par les points suivants :
Contrairement à la méthode statistique, le Data Mining ne nécessite jamais que l'on établisse une
hypothèse de départ qu'il s'agira de vérifier.
C'est des données elles-mêmes que se dégageront les corrélations intéressantes, le logiciel n'étant là
que pour les découvrir (le Data Mining se situe à la croisée des statistiques, de l'intelligence
artificielle, des bases de données).
Les connaissances extraites par le Data Mining ont vocation à être intégrées dans le schéma
organisationnel de l'entreprise ou de l'entité considérée.
Le Data Mining impose donc d'être capable d'utiliser de manière opérationnelle les résultats des
analyses effectuées, souvent dans des délais très courts. Le processus d'analyse doit permettre à
l'organisation une réactivité importante.
Les données traitées sont issues des systèmes de stockage en place dans l'organisation et sont ainsi
hétérogènes, multiples, plus ou moins structurées, dont la raison d'être n'est a priori pas l'analyse.
Cela impose de disposer de systèmes performants de préparation ou de manipulation de données.
Le Data Mining se propose donc de transformer en connaissance de grands volumes de données qui
peuvent être stockées de manière diverse, dans des bases de données relationnelles, dans un
entrepôt de données (datawarehouse), mais qui peuvent aussi être récupérées de sources riches plus
ou moins structurées comme internet, ou encore en temps réel.
Page 5
Projet SODAS
Lorsque la source n’est pas directement un entrepôt de données, il s'agira très souvent de construire
une base de données ou un entrepôt de données dédié à l'analyse et aux analystes.
Cela suppose bien entendu d'avoir à sa disposition une palette d'outils de gestion de données . On
peut également structurer les données de l’entrepôt sous forme d’un hypercube OLAP, même si cela
est assez rare en matière de Data Mining
On peut relever parmi les utilisations du data mining les exemples suivants :
-Analyser les comportements des consommateurs
-Prédire la réponse à un mailing ou à une opération de marketing direct
-Prédire l’attrition des clients
-Détecter des comportements anormaux ou frauduleux
-Rechercher des critères qui permettront d’établir ensuite un scoring pour repérer les « bons »
clients sans facteur de risque et leur proposer peut-être une tarification adaptée
-Suggérer lors d’un appel à un call center, en temps réel, une réponse de l’opérateur qui soit adaptée
Le Data Mining est un processus d'analyse dont l'approche est différente de celle utilisée en
statistique.
Cette dernière présuppose en général que l'on se fixe une hypothèse que les données vont nous
permettre ou non de confirmer.
Au contraire, le Data Mining adopte une démarche beaucoup plus empirique et essaye ainsi de faire
émerger, à partir des données brutes, des hypothèses que l'expérimentateur peut ne pas
soupçonner, et dont il aura à valider la pertinence.
Plus qu'une théorie normalisée, le Data Mining est un processus d'extraction de connaissances
métiers comportant les étapes principales suivantes :
-Formaliser un problème que l'organisation cherche à résoudre en terme de données
-Accéder aux données idoines quelles qu'elles soient
-Préparer les données en vue des traitements et utilisations futurs
-Modéliser les données en leur appliquant des algorithmes d'analyse
-Evaluer et valider les connaissances ainsi extraites des analyses
-Déployer les analyses dans l'entreprise pour une utilisation effective
3 - L’analyse de données symboliques
1 / 63 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !