Projet Datamining - Lamsade - Université Paris

Téléchargement

DESS Informatique Décisionnelle

Université Paris Dauphine

Projet Datamining

Offres de location d’appartements à Paris

Encadrant : Mr. DIDAY VILLE Clarisse

Mai 2004 VIVIER Julien

Page 2/32

SOMMAIRE

INTRODUCTION ................................................................................................................................................. 3

I. PRESENTATION DU DATA MINING ET DU LOGICIEL SODAS .......................................................... 4

1.1 LA NAISSANCE DU DATA MINING ................................................................................................................... 4

1.2 ANALYSE DE DONNEES SYMBOLIQUES ........................................................................................................... 5

1.2.1 La notion de concept et d’individu ........................................................................................................ 5

1.2.2 Les objets symboliques .......................................................................................................................... 5

1.2.3 Les avantages de l’analyse de données symboliques par rapport à l’analyse statistique de données .. 5

1.3 LE LOGICIEL SODAS ....................................................................................................................................... 6

1.3.1 Présentation du logiciel ........................................................................................................................ 6

1.3.2 Utilisation du logiciel ........................................................................................................................... 6

II. ETUDE DES DONNEES ISSUES DES LOCATIONS IMMOBILIERES PARISIENNES ..................... 8

2.1 PRESENTATION DU SUJET ............................................................................................................................... 8

2.1.1 Le projet ................................................................................................................................................ 8

2.1.2 Le recueil des données .......................................................................................................................... 8

2.1.3 La base de données ............................................................................................................................... 8

2.2 REQUETES ................................................................................................................................................... 11

2.3 UTILISATION DES DIVERSES METHODES STATISTIQUES ................................................................................ 16

2.3.1 SOE : Symbolic Object Editor ............................................................................................................ 16

2.3.2 STAT : Histogram and Elementary statistics ...................................................................................... 20

2.3.3 DIV : Divisive Classification .............................................................................................................. 23

2.3.4 PYR : Pyramides ................................................................................................................................. 27

2.3.5 PCM : Principal Component and Factorial Analysis ......................................................................... 28

CONCLUSION .................................................................................................................................................... 32

Page 3/32

Introduction

Les entreprises exploitent de nos jours des volumes de données de plus en plus

importants. Ces données permettent d’effectuer des analyses poussées à l’aide des

techniques d’analyses classiques. Cependant, lorsque le volume de données devient

trop conséquent, les traitements statistiques classiques atteignent leur limite et

l’utilisation du datamining est alors envisageable. Ce dernier utilise des techniques

statistiques traditionnelles comme la régression linéaire et logistique ou plus

élaborées, telles que l'analyse multi variée, l'analyse en composante principale, les

arbres décisionnels et les réseaux de neurones.

Nous manipulerons tout au long de notre analyse des données dites symboliques,

permettant de résumer les données par des concepts plus larges (par exemple, on

ne s’intéresse plus à un appartement mais à l’arrondissement où il se situe). Cela

permettra d’obtenir de nouvelles connaissances et d’aborder les problèmes sous un

nouvel angle.

Notre étude se portera sur le marché de location immobilière dans Paris. Nous

présenterons dans un premier temps le datamining de manière générale, l’analyse

de données symboliques ainsi que le logiciel libre SODAS qui nous servira dans

notre étude.

Par la suite nous détaillerons notre sujet d’application ainsi que la base utilisée. Nous

appliquerons sur cette dernière, différentes méthodes proposées par le logiciel

SODAS.

Page 4/32

I. Présentation du Data Mining et du logiciel SODAS

1.1 La naissance du data Mining

Le Data Mining est apparu dans les années 1980, avec l’apparition des grands

volumes de données informatiques inutilisables directement par l'entreprise.

Le Data Mining consistait alors essentiellement à extraire de l'information de

gigantesques bases de données de la manière la plus automatisée possible ;

contrairement à aujourd'hui où le Data Mining consiste à rechercher l’information

pertinente parmi l’abondance de données.

Le Data Mining peut se définir comme l'extraction d’informations ou de

connaissances utilisables à partir de gros volumes de données.

C’est un processus d’exploration, modification et modélisation de grandes bases de

données afin de découvrir des relations entre les données jusqu'alors inconnues.

Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à

partir de données permettent d'obtenir des connaissances exploitables.

Son utilité est grande dès lors que l'entreprise possède un grand nombre

d'informations stockées sous forme de bases de données.

Bien qu'utilisant des techniques et une démarche statistique, le Data Mining et ses

outils sont appelés à être utilisés par des non statisticiens.

Les applications du Data Mining sont multiples, elles concernent: la grande

distribution, la vente par correspondance, les opérateurs de télécommunications, les

banques et assurances, etc. Le domaine majeur où le Data Mining a prouvé son

efficacité est la gestion de la relation client.

En effet, le Data Mining permet par une meilleure connaissance de la clientèle

d'accroître les ventes.

Page 5/32

1.2 Analyse de données symboliques

1.2.1 La notion de concept et d’individu

On distingue deux niveaux d’informations dans les bases de données de très grande

taille :

- Les individus de premier ordre, en général formés par un ‘’tuple’’ dans la base de

données.

- Les individus de second ordre, ou ‘’concepts’’ qui rassemblent une grande quantité

d’informations obtenues par classification automatique ou par une requête.

1.2.2 Les objets symboliques

Résumer les bases de données de taille parfois gigantesque par leurs concepts

sous-jacents de façon à en extraire des connaissances nouvelles constitue une

tâche d'importance grandissante.

Ces concepts qu'ils soient fournis (une région, un groupe socio-économique, un type

d'entreprise,…) ou obtenu par classification automatique (nuées dynamiques,

hiérarchie, pyramide, treillis de concepts) peuvent seulement être décrits par des

données plus complexes dites "symboliques" où les propriétés peuvent s'exprimer

par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des

histogrammes ou des valeurs multiples munies de règles et de taxonomies.

Les concepts sont modélisés ici par des ‘’objets symboliques’’ booléens ou modaux

qui permettent non seulement de les décrire par leurs propriétés communes

(booléennes, probabilistes, etc.) mais aussi de calculer leur extension dans

l'ensemble des individus qu'ils représentent (des habitants, des employés, des

entreprises,…).

1.2.3 Les avantages de l’analyse de données symboliques par rapport à

l’analyse statistique de données

L’analyse de données symboliques présente principalement l’avantage de s’attaquer

à des données plus complexes que l’analyse statistique de données simple.

Elle fournit ainsi des renseignements nouveaux sous formes d’objet symboliques sur

lesquelles elle peut utiliser des outils adaptés.

Elle peut ainsi faire des représentations graphiques décrivant ces objets selon

différentes méthodes et différentes représentations.

Grâce à toutes ces techniques, la base est plus riche et expliquée de manière plus

claire et plus synthétique.

Les objets symboliques formés à partir de la base par les outils de l'analyse des

données symboliques permettent de définir des requêtes et donc de fournir des

questions qui peuvent être pertinentes.

1 / 32 100%

Documents connexes

fiche tarifs - Camping Vallée du Doux

Fr. 3 examen unite 3: guide pour étudier Les professions : metteur

Word()

Épreuve de Mathématique : Géométrie et Calculs

Candidature à la délégation au PVE Chères amies, chers amis, Je

Examen de Mathématiques BEPC 2008

Document - Ville de Neuchâtel

fiche tarifs - Camping Vallée du Doux

Travailleurs autonomes

Mariage - Liste des choses à avoir avec soi le jour J

Description de l`outil tabac - Fédération des maisons médicales

technicien en environnement - Nature

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Projet Datamining - Lamsade - Université Paris

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Projet Datamining - Lamsade - Université Paris

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib