DESS Informatique Décisionnelle
Université Paris Dauphine
Projet Datamining
Offres de location d’appartements à Paris
Encadrant : Mr. DIDAY VILLE Clarisse
Mai 2004 VIVIER Julien
Page 2/32
SOMMAIRE
INTRODUCTION ................................................................................................................................................. 3
I. PRESENTATION DU DATA MINING ET DU LOGICIEL SODAS .......................................................... 4
1.1 LA NAISSANCE DU DATA MINING ................................................................................................................... 4
1.2 ANALYSE DE DONNEES SYMBOLIQUES ........................................................................................................... 5
1.2.1 La notion de concept et d’individu ........................................................................................................ 5
1.2.2 Les objets symboliques .......................................................................................................................... 5
1.2.3 Les avantages de l’analyse de données symboliques par rapport à l’analyse statistique de données .. 5
1.3 LE LOGICIEL SODAS ....................................................................................................................................... 6
1.3.1 Présentation du logiciel ........................................................................................................................ 6
1.3.2 Utilisation du logiciel ........................................................................................................................... 6
II. ETUDE DES DONNEES ISSUES DES LOCATIONS IMMOBILIERES PARISIENNES ..................... 8
2.1 PRESENTATION DU SUJET ............................................................................................................................... 8
2.1.1 Le projet ................................................................................................................................................ 8
2.1.2 Le recueil des données .......................................................................................................................... 8
2.1.3 La base de données ............................................................................................................................... 8
2.2 REQUETES ................................................................................................................................................... 11
2.3 UTILISATION DES DIVERSES METHODES STATISTIQUES ................................................................................ 16
2.3.1 SOE : Symbolic Object Editor ............................................................................................................ 16
2.3.2 STAT : Histogram and Elementary statistics ...................................................................................... 20
2.3.3 DIV : Divisive Classification .............................................................................................................. 23
2.3.4 PYR : Pyramides ................................................................................................................................. 27
2.3.5 PCM : Principal Component and Factorial Analysis ......................................................................... 28
CONCLUSION .................................................................................................................................................... 32
Page 3/32
Introduction
Les entreprises exploitent de nos jours des volumes de données de plus en plus
importants. Ces données permettent d’effectuer des analyses poussées à l’aide des
techniques d’analyses classiques. Cependant, lorsque le volume de données devient
trop conséquent, les traitements statistiques classiques atteignent leur limite et
l’utilisation du datamining est alors envisageable. Ce dernier utilise des techniques
statistiques traditionnelles comme la régression linéaire et logistique ou plus
élaborées, telles que l'analyse multi variée, l'analyse en composante principale, les
arbres décisionnels et les réseaux de neurones.
Nous manipulerons tout au long de notre analyse des données dites symboliques,
permettant de résumer les données par des concepts plus larges (par exemple, on
ne s’intéresse plus à un appartement mais à l’arrondissement il se situe). Cela
permettra d’obtenir de nouvelles connaissances et d’aborder les problèmes sous un
nouvel angle.
Notre étude se portera sur le marché de location immobilière dans Paris. Nous
présenterons dans un premier temps le datamining de manière générale, l’analyse
de données symboliques ainsi que le logiciel libre SODAS qui nous servira dans
notre étude.
Par la suite nous détaillerons notre sujet d’application ainsi que la base utilisée. Nous
appliquerons sur cette dernière, différentes méthodes proposées par le logiciel
SODAS.
Page 4/32
I. Présentation du Data Mining et du logiciel SODAS
1.1 La naissance du data Mining
Le Data Mining est apparu dans les années 1980, avec l’apparition des grands
volumes de données informatiques inutilisables directement par l'entreprise.
Le Data Mining consistait alors essentiellement à extraire de l'information de
gigantesques bases de données de la manière la plus automatisée possible ;
contrairement à aujourd'hui le Data Mining consiste à rechercher l’information
pertinente parmi l’abondance de données.
Le Data Mining peut se finir comme l'extraction d’informations ou de
connaissances utilisables à partir de gros volumes de données.
C’est un processus d’exploration, modification et modélisation de grandes bases de
données afin de découvrir des relations entre les données jusqu'alors inconnues.
Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à
partir de données permettent d'obtenir des connaissances exploitables.
Son utilité est grande dès lors que l'entreprise possède un grand nombre
d'informations stockées sous forme de bases de données.
Bien qu'utilisant des techniques et une démarche statistique, le Data Mining et ses
outils sont appelés à être utilisés par des non statisticiens.
Les applications du Data Mining sont multiples, elles concernent: la grande
distribution, la vente par correspondance, les opérateurs de télécommunications, les
banques et assurances, etc. Le domaine majeur le Data Mining a prouvé son
efficacité est la gestion de la relation client.
En effet, le Data Mining permet par une meilleure connaissance de la clientèle
d'accroître les ventes.
Page 5/32
1.2 Analyse de données symboliques
1.2.1 La notion de concept et d’individu
On distingue deux niveaux d’informations dans les bases de données de très grande
taille :
- Les individus de premier ordre, en général formés par un ‘’tuple’’ dans la base de
données.
- Les individus de second ordre, ou ‘’concepts’’ qui rassemblent une grande quantité
d’informations obtenues par classification automatique ou par une requête.
1.2.2 Les objets symboliques
Résumer les bases de données de taille parfois gigantesque par leurs concepts
sous-jacents de façon à en extraire des connaissances nouvelles constitue une
tâche d'importance grandissante.
Ces concepts qu'ils soient fournis (une région, un groupe socio-économique, un type
d'entreprise,…) ou obtenu par classification automatique (nuées dynamiques,
hiérarchie, pyramide, treillis de concepts) peuvent seulement être décrits par des
données plus complexes dites "symboliques" les propriétés peuvent s'exprimer
par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des
histogrammes ou des valeurs multiples munies de règles et de taxonomies.
Les concepts sont modélisés ici par des ‘’objets symboliques’’ booléens ou modaux
qui permettent non seulement de les décrire par leurs propriétés communes
(booléennes, probabilistes, etc.) mais aussi de calculer leur extension dans
l'ensemble des individus qu'ils représentent (des habitants, des employés, des
entreprises,…).
1.2.3 Les avantages de l’analyse de données symboliques par rapport à
l’analyse statistique de données
L’analyse de données symboliques présente principalement l’avantage de s’attaquer
à des données plus complexes que l’analyse statistique de données simple.
Elle fournit ainsi des renseignements nouveaux sous formes d’objet symboliques sur
lesquelles elle peut utiliser des outils adaptés.
Elle peut ainsi faire des représentations graphiques décrivant ces objets selon
différentes méthodes et différentes représentations.
Grâce à toutes ces techniques, la base est plus riche et expliquée de manière plus
claire et plus synthétique.
Les objets symboliques formés à partir de la base par les outils de l'analyse des
données symboliques permettent de définir des requêtes et donc de fournir des
questions qui peuvent être pertinentes.
1 / 32 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !