UNIVERSITE PARIS DAUPHINE
Projet DataMining
Axe d’analyse : les voitures Françaises et
Allemandes
Jeremy Bodart
Qi Li
25/03/2008
Master 2 Informatique Décisionnel
Responsable du cours : M. Diday
Page 2
DataMining
Rapport sur l’analyse des données sur les voitures
TABLE DES MATIERES
1 - Etat de l’art .................................................................................................................................. 6
a) Définition du datamining ............................................................................................................. 6
b) Le datamining, une technique adaptée à notre époque ............................................................. 6
c) Exemple d’application métier ..................................................................................................... 7
d) Description succincte d’un projet de datamining ....................................................................... 7
e) Quelques méthodes de statistiques ............................................................................................ 8
f) Difficultés du datamining ............................................................................................................ 8
2 - Logiciels présents dans le secteur du datamining ....................................................................... 9
a) Logiciel gérant quelques dizaines de milliers de lignes ............................................................... 9
b) Logiciel gérant quelques centaines de milliers de lignes .......................................................... 10
c) Logiciel gérant quelques millions de lignes ............................................................................... 10
3 - Présentation des données et des concepts utilisés .................................................................. 11
a) Présentation des données ......................................................................................................... 11
b) Présentation des concepts ........................................................................................................ 12
i) Le concept prix .......................................................................................................................... 12
ii) Le concept nom voiture ............................................................................................................. 13
4 - SODAS ........................................................................................................................................ 13
a) Schéma illustrant les étapes de mise en œuvre du logiciel SODAS .......................................... 13
b) Présentation de DB2SO ............................................................................................................. 15
c) Sélection de la base de données dans SODAS ........................................................................... 19
d) Mise en œuvre des méthodes et analyse des résultats avec le concept Prix ........................... 20
i) La méthode « view » ................................................................................................................. 20
ii) La méthode DSTAT .................................................................................................................... 24
(1) Les variables d’intervalles...................................................................................................... 24
Page 3
DataMining
Rapport sur l’analyse des données sur les voitures
(2) Les variables modales ............................................................................................................ 26
iii) La méthode DIV ......................................................................................................................... 29
(1) Les variables d’intervalles...................................................................................................... 29
(2) Les variables modales ............................................................................................................ 29
iv) La méthode SCLUST ................................................................................................................... 30
e) Mise en œuvre des méthodes et analyse des résultats avec le concept Nom ......................... 31
i) La méthode DSTAT sur les variables d’intervale ....................................................................... 31
(1) Réservoir ................................................................................................................................ 31
(2) Vitesse maximale ................................................................................................................... 31
ii) DSTAT sur les variables modales ............................................................................................... 32
iii) DIV ............................................................................................................................................. 33
(1) Décomposition par rapport à la vitesse max ......................................................................... 33
(2) Décomposition par rapport à la puissance du moteur ......................................................... 34
(3) Décomposition par rapport à la vitesse maximale et la puissance du moteur ..................... 35
iv) SCLUST ....................................................................................................................................... 35
Page 4
DataMining
Rapport sur l’analyse des données sur les voitures
INTRODUCTION
e nos jours, les entreprises brassent un très grand nombre de
données. L’ensemble des données générées par l’ensemble des
entreprises mondiales représente quinze octaoctets. Si l’on regarde de plus
prêt, on peut constater que les principales entreprises utilisant des données
importantes sont les grands comptes et les grandes multinationales. En effet,
les banques peuvent naviguer sur des téraoctets de données. La banque
populaire travaille sur environ quinze téraoctets de données. Afin d’exploiter le
potentiel présent dans leurs bases de données, les différentes compagnies
utilisent les technologies de « Business Intelligence » ou décisionnel. Ces outils
permettent d’exploiter des données en mettant en évidence des points ou
l’entreprise n’a pas atteint ses objectifs par exemple. D’autres technologies
comme le datamining qui est par définition « la recherche de pépite » fait
ressortir des corrélations entre les données que l’homme n’aurait pu voir. Ces
corrélations ressortent grâce à des algorithmes tels que celui dit de
« l’apriori ». L’exemple le plus frappant en datamining est la relation dans un
magasin entre la vente de couche culotte pour les enfants et les bières. En
effet, un supermarché américain s’est rendu compte qu’en plaçant dans son
magasin les couches culottes à cote des bières à partir d’une certaine heure, il
vendrait beaucoup plus ces deux produits.
Actuellement, des logiciels permettent de mettre en évidence des relations
entre des produits d’une même société. Le datamining est encore peu présent
dans les entreprises françaises. Cependant, celles-ci sont de plus en plus
« friandes » d’outils leur permettant d’analyser rapidement leurs produits ainsi
que leurs clients (CRM=Customer RelationShip Management). Le logiciel que
l’on va vous présenter à travers l’étude d’une base de données sur les voitures
Allemandes et Française est SODAS qui est un logiciel d’analyse de données
D
Page 5
DataMining
Rapport sur l’analyse des données sur les voitures
symboliques. SODAS est de la volonté de chercheurs d’université à
construire un outil européen de datamining.
Notre étude se basera dans un premier temps à vous présenter le datamining
ainsi que ce qu’il peut apporter dans une société. Ensuite nous ferons une
présentation des logiciels présents sur le marché et nous positionnerons
SODAS. Puis, nous présenterons la base de données utilisée (base de données
sur les voitures Françaises et Allemandes). Ensuite nous ferons l’analyse des
données à travers des méthodes présentes dans le logiciel SODAS.
1 / 38 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !