Projet Datamining - Lamsade - Université Paris

publicité
DESS Informatique Décisionnelle
Université Paris Dauphine
Projet Datamining
Offres de location d’appartements à Paris
Encadrant : Mr. DIDAY
Mai 2004
VILLE Clarisse
VIVIER Julien
SOMMAIRE
INTRODUCTION ................................................................................................................................................. 3
I. PRESENTATION DU DATA MINING ET DU LOGICIEL SODAS .......................................................... 4
1.1 LA NAISSANCE DU DATA MINING................................................................................................................... 4
1.2 ANALYSE DE DONNEES SYMBOLIQUES ........................................................................................................... 5
1.2.1 La notion de concept et d’individu ........................................................................................................ 5
1.2.2 Les objets symboliques .......................................................................................................................... 5
1.2.3 Les avantages de l’analyse de données symboliques par rapport à l’analyse statistique de données .. 5
1.3 LE LOGICIEL SODAS ....................................................................................................................................... 6
1.3.1 Présentation du logiciel ........................................................................................................................ 6
1.3.2 Utilisation du logiciel ........................................................................................................................... 6
II. ETUDE DES DONNEES ISSUES DES LOCATIONS IMMOBILIERES PARISIENNES ..................... 8
2.1 PRESENTATION DU SUJET ............................................................................................................................... 8
2.1.1 Le projet ................................................................................................................................................ 8
2.1.2 Le recueil des données .......................................................................................................................... 8
2.1.3 La base de données ............................................................................................................................... 8
2.2 REQUETES ................................................................................................................................................... 11
2.3 UTILISATION DES DIVERSES METHODES STATISTIQUES ................................................................................ 16
2.3.1 SOE : Symbolic Object Editor ............................................................................................................ 16
2.3.2 STAT : Histogram and Elementary statistics ...................................................................................... 20
2.3.3 DIV : Divisive Classification .............................................................................................................. 23
2.3.4 PYR : Pyramides ................................................................................................................................. 27
2.3.5 PCM : Principal Component and Factorial Analysis ......................................................................... 28
CONCLUSION .................................................................................................................................................... 32
Page 2/32
Introduction
Les entreprises exploitent de nos jours des volumes de données de plus en plus
importants. Ces données permettent d’effectuer des analyses poussées à l’aide des
techniques d’analyses classiques. Cependant, lorsque le volume de données devient
trop conséquent, les traitements statistiques classiques atteignent leur limite et
l’utilisation du datamining est alors envisageable. Ce dernier utilise des techniques
statistiques traditionnelles comme la régression linéaire et logistique ou plus
élaborées, telles que l'analyse multi variée, l'analyse en composante principale, les
arbres décisionnels et les réseaux de neurones.
Nous manipulerons tout au long de notre analyse des données dites symboliques,
permettant de résumer les données par des concepts plus larges (par exemple, on
ne s’intéresse plus à un appartement mais à l’arrondissement où il se situe). Cela
permettra d’obtenir de nouvelles connaissances et d’aborder les problèmes sous un
nouvel angle.
Notre étude se portera sur le marché de location immobilière dans Paris. Nous
présenterons dans un premier temps le datamining de manière générale, l’analyse
de données symboliques ainsi que le logiciel libre SODAS qui nous servira dans
notre étude.
Par la suite nous détaillerons notre sujet d’application ainsi que la base utilisée. Nous
appliquerons sur cette dernière, différentes méthodes proposées par le logiciel
SODAS.
Page 3/32
I. Présentation du Data Mining et du logiciel SODAS
1.1 La naissance du data Mining
Le Data Mining est apparu dans les années 1980, avec l’apparition des grands
volumes de données informatiques inutilisables directement par l'entreprise.
Le Data Mining consistait alors essentiellement à extraire de l'information de
gigantesques bases de données de la manière la plus automatisée possible ;
contrairement à aujourd'hui où le Data Mining consiste à rechercher l’information
pertinente parmi l’abondance de données.
Le Data Mining peut se définir comme l'extraction d’informations ou de
connaissances utilisables à partir de gros volumes de données.
C’est un processus d’exploration, modification et modélisation de grandes bases de
données afin de découvrir des relations entre les données jusqu'alors inconnues.
Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à
partir de données permettent d'obtenir des connaissances exploitables.
Son utilité est grande dès lors que l'entreprise possède un grand nombre
d'informations stockées sous forme de bases de données.
Bien qu'utilisant des techniques et une démarche statistique, le Data Mining et ses
outils sont appelés à être utilisés par des non statisticiens.
Les applications du Data Mining sont multiples, elles concernent: la grande
distribution, la vente par correspondance, les opérateurs de télécommunications, les
banques et assurances, etc. Le domaine majeur où le Data Mining a prouvé son
efficacité est la gestion de la relation client.
En effet, le Data Mining permet par une meilleure connaissance de la clientèle
d'accroître les ventes.
Page 4/32
1.2 Analyse de données symboliques
1.2.1 La notion de concept et d’individu
On distingue deux niveaux d’informations dans les bases de données de très grande
taille :
- Les individus de premier ordre, en général formés par un ‘’tuple’’ dans la base de
données.
- Les individus de second ordre, ou ‘’concepts’’ qui rassemblent une grande quantité
d’informations obtenues par classification automatique ou par une requête.
1.2.2 Les objets symboliques
Résumer les bases de données de taille parfois gigantesque par leurs concepts
sous-jacents de façon à en extraire des connaissances nouvelles constitue une
tâche d'importance grandissante.
Ces concepts qu'ils soient fournis (une région, un groupe socio-économique, un type
d'entreprise,…) ou obtenu par classification automatique (nuées dynamiques,
hiérarchie, pyramide, treillis de concepts) peuvent seulement être décrits par des
données plus complexes dites "symboliques" où les propriétés peuvent s'exprimer
par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des
histogrammes ou des valeurs multiples munies de règles et de taxonomies.
Les concepts sont modélisés ici par des ‘’objets symboliques’’ booléens ou modaux
qui permettent non seulement de les décrire par leurs propriétés communes
(booléennes, probabilistes, etc.) mais aussi de calculer leur extension dans
l'ensemble des individus qu'ils représentent (des habitants, des employés, des
entreprises,…).
1.2.3 Les avantages de l’analyse de données symboliques par rapport à
l’analyse statistique de données
L’analyse de données symboliques présente principalement l’avantage de s’attaquer
à des données plus complexes que l’analyse statistique de données simple.
Elle fournit ainsi des renseignements nouveaux sous formes d’objet symboliques sur
lesquelles elle peut utiliser des outils adaptés.
Elle peut ainsi faire des représentations graphiques décrivant ces objets selon
différentes méthodes et différentes représentations.
Grâce à toutes ces techniques, la base est plus riche et expliquée de manière plus
claire et plus synthétique.
Les objets symboliques formés à partir de la base par les outils de l'analyse des
données symboliques permettent de définir des requêtes et donc de fournir des
questions qui peuvent être pertinentes.
Page 5/32
1.3 Le logiciel sodas
1.3.1 Présentation du logiciel
L'analyse des données symboliques, sa théorie et son outil informatique SODAS
(résultant des efforts de 17 équipes européennes), étendent les méthodes de la
statistique traditionnelle et de l'analyse des données classique.
Le logiciel SODAS permet d'extraire des grandes bases de données des
connaissances nouvelles sous forme de données symboliques puis de les analyser
(histogrammes, étoiles, ...), de les comparer par des calculs de dissimilarités, de les
classifier et donner une représentation graphique et une description symbolique des
classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de
concepts), d'en donner une représentation graphique plane (analyse en
composantes principales) de les discriminer (analyse factorielle discriminante, arbres
de décision), etc.
1.3.2 Utilisation du logiciel
Au démarrage de SODAS, la filière est vide.
Figure 1 : Interface générale du logiciel SODAS
Avec le clic droit sur BASE, on sélectionne ‘’Open’’ puis dans l’arborescence, on
ouvre la base au format .sds qui nous intéresse. Une fois la base ouverte, pour
insérer des méthodes, on clic droit sur BASE puis on sélectionne ‘’Insert method’’.
Un emplacement vide se crée sur lequel on peut faire glisser une des méthodes
proposées. Cette opération peut être répéter autant que nécessaire pour insère
toutes les méthodes dont l’utilisateur a besoin.
Mais pour le moment, les méthodes ne sont pas actives (elles sont grisées) car non
paramétrées.
Pour cela, clic droit sur la méthode et sélectionner ‘’Parameters’’. Une fois les
paramètres remplis, on ferme la fenêtre et on peut alors lancer la méthode en
cliquant droit et en sélectionnant ‘’Run method’’.
Page 6/32
On obtient alors un fichier texte résumant les opérations effectuées par la méthode et
une sortie graphique.
Menu
Sortie graphique
Méthodes disponibles
Méthodes utilisées
Figure 2 : Méthodes appliquées sur un fichier SDS
Si les paramètres sont mauvais ou si une erreur s’est produite, un fichier texte blanc
et barré d’une croix rouge récapitule les problèmes qui se sont présentés.
Fichier
d’erreur
Figure 3 : Exemple de méthode non aboutie
Page 7/32
II. Etude des données issues des locations immobilières
Parisiennes
2.1 Présentation du sujet
2.1.1 Le projet
Nous avons choisi d’étudier le marché des locations immobilières pour les
particuliers.
Pour ce faire, nous avons restreint notre champ d’étude aux vingt arrondissements
de Paris tout en conservant un choix d’appartements étendu.
Ces derniers se répartissent dans quatre catégories distinctes : appartements 1
pièce, 2 pièces, 3 pièces et 4 pièces.
L’objet de notre analyse est d’étudier ces individus au travers du concept
d’arrondissement.
2.1.2 Le recueil des données
Nous avons recueilli l’ensemble de nos données manuellement par l’intermédiaire
du site Internet ‘’de particulier à particulier’’.
Ce site est consultable à l’adresse suivante : http://www.pap.fr/
La base de données sous Access comporte 296 enregistrements ce qui permet de
couvrir de façon homogène les 20 arrondissements de Paris.
Les données sont réparties au sein des arrondissements en fonction du nombre de
pièces.
Certaines disparités existent entre ces catégories, en rapport avec le nombre d’offres
proposées sur le site Internet.
Le schéma relationnel de la base de données est présenté dans le chapitre
précédent.
2.1.3 La base de données
Nous avons modélisé, conçu et alimenté la base de données qui est notre point de
départ de l’analyse.
Le modèle conceptuel est présenté ci-dessous.
Page 8/32
Figure 4 : Schéma conceptuel de l’entrepôt de données
Nous avons modélisé notre problème par une étoile, c'est-à-dire par un entrepôt de
données. Une étoile est définie par une table de fait reliée à plusieurs tables de
dimensions. Le fait a sa propre clé primaire ainsi que les clés étrangères de toutes
les autres tables autour. Ces tables sont appelées ‘’axes’’, ‘’dimensions’’ ou encore
‘’référentiels’’.
Le fait de notre étoile est la table ‘’Location’’ et les dimensions sont les tables
‘’Arrondissement’’, ‘’Nb_Pieces’’, ‘’Etages’’, ‘’Type_Immeuble’’, ‘’Type_Location’’ et
‘’Chauffage’’.
La table de fait, i.e. ‘’Location’’ compte 296 enregistrements, soit 296 offres de
location d’appartements à Paris.
Une location est définie par :
- Son identifiant : ‘’Id_Location’’
- Les identifiants des dimensions : ‘’Id_Arrondissement’’, ‘’Id_NbPieces’’,
‘’Id_Etages’’, ‘’Id_TypeImmeuble’’, ‘’Id_TypeLocation’’ et ‘’Id_Chauffage’’.
- Le tarif mensuel par mois en euros de la location (sans les charges) qui est
une donnée obligatoire : ‘’Prix’’
- Le montant des charges par mois en euros qui est une donnée facultative :
‘’Charges’’
- La surface en m² de l’appartement (donnée obligatoire) : ‘’Surface’’
- La présence d’une salle d’eau (pièce équipée d’une douche) : ‘’Salle_d_eau’’
- La présence d’une salle de bain (pièce équipée d’une baignoire) :
‘’Salle_de_bain’’
Page 9/32
Ces deux dernières informations sont exclusives dans le sens où si l’appartement
dispose d’une salle d’eau, il ne disposera pas d’une salle de bain et vice-versa.
-
La présence d’une cuisine américaine (cuisine non séparée du salon) :
‘Cuisine américaine’’
La présence d’une cuisinette (espace de cuisine réduit) : ‘’cuisinette’’
La présence d’une cuisine séparée (cuisine traditionnelle indépendante du
salon) : ‘’Cuisine_séparée’’
Ces informations sont également exclusives.
-
La présence de WC extérieur (toilettes situées à l’extérieur de l’appartement) :
‘’WC_ext’’
La présence d’ascenseur : ‘’Ascenseur’’
la présence d’interphone (appartement avec digicode ou interphone) :
‘’Interphone’’
la présence de cave (non pris en compte dans la surface) : ‘’Cave’’
la présence de parking : ‘’Parking’’
Les tables de dimensions sont définies ci-dessous.
La table ‘’Arrondissement’’ contient 20 enregistrements. Elle correspond à
l’arrondissement de Paris où est situé l’appartement mis en location. Paris compte 20
arrondissements : de Paris 1er à Paris 20ème.
La table ‘’Nb_Pieces’’ correspond au nombre de pièces de l’appartement. Cette table
contient 5 enregistrements : ‘’une pièce’’, ‘’deux pièces’’, ‘’trois pièces’’, ‘’quatre
pièces’’ et ‘’5 pièces et plus’’.
La table ‘’Etages’’ correspond à l’étage de l’immeuble où est situé l’appartement.
Nous avons créé 10 modalités : ‘’Rez de chaussée’’, ‘’1er étage’’, ‘’2ème étage’’ etc.
jusqu’à ‘’9ème étage’’.
La table ‘’Type_Immeuble’’ traduit la qualité architecturale de l’immeuble. Elle
contient deux valeurs : ‘’Moderne’’ et ‘’Ancien’’.
La table ‘’Type_Location’’ contient deux lignes : ‘’Vide’’ et ‘’Meublé’’.
La table ‘’Chauffage’’ est composée de cinq enregistrements : ‘’Chauffage central’’,
‘’Gaz individuel’’, ‘’Electrique’’, ‘’Fuel’’ et ‘’NR’’ pour ‘’ non renseigné’’.
Page 10/32
2.2 Requêtes
Rappelons dans un premier temps que les individus de premier ordre sont les offres
de location d’appartements à Paris et que les individus de second ordre sont les
arrondissements. Ils sont des concepts dans le sens où chaque arrondissement
propose des locations d’appartements à Paris.
Une fois l’entrepôt de données modélisé, conçu et alimenté, il est nécessaire de
produire des requêtes SQL pour extraire l’information de la base et l’alimenter dans
le fichier SDS, fichier source pour les analyses statistiques.
Cette partie est ce que SODAS nomme DB2SO : il s’agit d’un module qui extrait
l’information d’une base de données (dans notre cas il s’agit de ACCESS) et qui
construit un ensemble d’assertions.
Nous avons utilisé trois requêtes.
La première requête, nommée ‘’Description_Locations’’, correspond à l’extraction
des individus.
Grâce au module SODAS DB, nous pouvons extraire les individus à partir de
l’entrepôt de données.
L’interface du module est présentée ci-dessous :
Figure 5 : Extraction des individus
Cette requête a été préalablement créée dans la base de données ACCESS.
Elle est décrite ci-dessous :
Page 11/32
SELECT DISTINCT [Location].[Id_Location], [Arrondissement].[Lib_Arrondissement],
[Chauffage].[Lib_Chauffage], [Etages].[Lib_Etages], [Nb_Pieces].[Lib_NbPieces],
[Type_Immeuble].[Lib_TypeImmeuble], [Type_Location].[Lib_TypeLocation],
[Location].[Prix], [Location].[Charges], [Location].[Surface]
FROM Location, Arrondissement, Chauffage, Etages, Nb_Pieces, Type_Immeuble,
Type_Location
WHERE
[Arrondissement].[Id_Arrondissement] = [Location].[Id_Arrondissement]
AND [Chauffage].[Id_Chauffage] = [Location].[Id_Chauffage]
AND [Etages].[Id_Etages] = [Location].[Id_Etages]
AND [Nb_Pieces].[Id_NbPieces]=[Location].[Id_NbPieces]
AND [Type_Immeuble].[Id_TypeImmeuble]=[Location].[Id_TypeImmeuble]
AND [Type_Location].[Id_TypeLocation]=[Location].[Id_TypeLocation];
Cette requête donne le résultat suivant :
Figure 6 : Résultat de la requête Description_Locations
Cette requête est en quelque sorte le descriptif des individus du premier ordre.
Pour chaque offre de location d’appartement, il est lui est associé l’arrondissement,
le type de chauffage, l’étage, le nombre de pièces, le type d’immeuble, le type de
location, le prix, le montant des charges et la surface.
Page 12/32
La seconde requête nommée ‘’Description_Arrondissements’’, est définie ci-dessous
Figure 7 : Ajout de variables
Elle est décrite ci-dessous :
SELECT [Arrondissement].[Lib_Arrondissement],
count([Id_Location]) AS Nb_Location,
round(Sum([Location].[Prix])) AS Prix_Tot,
round(Avg([Location].[Prix])) AS Prix_Moy,
round(Avg([Location].[Charges])) AS Charges_Moy, round(Sum([Location].[Surface]))
AS Surface_Tot,
round(Avg([Location].[Surface])) AS Surface_Moy,
sum([salle_d_eau]) AS NbSalle_eau, sum([salle_de_bain]) AS NbSalle_bain,
sum([cuisine_americaine]) AS NbCuisine_americaine, sum([cuisinette]) AS
NbCuisinette, sum([cuisine_separee]) AS NbCuisine_separee, sum([wc_ext]) AS
NbWC_ext, sum([ascenseur]) AS NbAscenseur, sum([interphone]) AS NbInterphone,
sum([cave]) AS NbCave, sum([Parking]) AS NbParking
FROM Arrondissement, Location
WHERE [Arrondissement].[Id_Arrondissement]=[Location].[Id_Arrondissement]
GROUP BY [Arrondissement].[Lib_Arrondissement], Location].[Id_Arrondissement]
ORDER BY [Location].[Id_Arrondissement];
Figure 8 : Résultat de la requête Description_Arrondissements
Page 13/32
Cette requête est en quelque sorte le descriptif des concepts.
Pour chaque arrondissement, plusieurs informations sont disponibles : le nombre de
locations, le prix total des locations, le prix moyen d’une location, le montant moyen
des charges, la surface totale des locations, la surface moyenne d’une location, le
nombre de salles de bain etc.
La troisième requête, nommée ‘’R_NbPieces’’, correspond à l’ajout d’une variable
multi modale. Nous avons choisi le nombre de pièces de l’appartement en location.
Elle est présentée ci-dessous :
Figure 9 : Ajout d’une variable multi modale
La requête est décrite ci-dessous :
SELECT DISTINCT Arrondissement.Lib_Arrondissement, Nb_Pieces.Lib_NbPieces,
1 AS ponderation
FROM Nb_Pieces, Arrondissement, Location
WHERE Arrondissement.Id_Arrondissement = Location.Id_Arrondissement
AND Nb_Pieces.Id_NbPieces = Location.Id_NbPieces;
Figure 10 : Résultat de la requête R_NbPieces
Page 14/32
Cette requête détermine toutes les combinaisons possibles entre l’arrondissement et
le nombre de pièces de l’appartement.
Par exemple, pour l’arrondissement du 10ème, les offres de location portent
uniquement sur des appartements avec 1, 2 ou 4 pièces.
Au final, le module SODAS DB fournit une synthèse des éléments créés. Concernant
l’extraction des données concernant la location des appartements, le résultat est
présenté ci-dessous :
Figure 11 : Résumé des données symboliques
Les objets symboliques sont définis dans une matrice 20 * 8, à savoir 8 variables en
colonnes (Lib_NbPieces, Lib_Etages, Lib_TypeImmeuble, Lib_TypeLocation et
Lib_Chauffage comme variables qualitatives et Prix, Charges et Surface comme
variables quantitatives) et 20 concepts (20 arrondissements issus des 296 offres de
location d’appartements à Paris).
16 variables uni modales et une variable multi modale ont été ajoutées.
Au total, le fichier SDS, tableau de données symboliques, contient 20 concepts et 25
variables.
Page 15/32
2.3 Utilisation des diverses méthodes statistiques
Dans ce chapitre, nous allons présenter rapidement l’objectif de quelques méthodes
statistiques proposées par le logiciel de Data Mining SODAS et les appliquer sur les
informations issues du tableau de données symboliques précédemment créé.
2.3.1 SOE : Symbolic Object Editor
Le module SOE permet de visualiser le contenu du tableau de données
symboliques : les concepts et les variables qui le décrivent.
Figure 12 : Extrait du tableau de données symboliques
La méthode SOE permet de représenter graphiquement en deux ou trois dimensions
les concepts du tableau : c’est ce qui s’appelle l’étoile zoom.
Il est également possible de visualiser variable par variable la répartition des
données concept par concept.
Il existe deux types de variables : les variables quantitatives (mesurables, continues
ou discrètes) et les variables qualitatives (ordinales, nominales…).
Pour les variables quantitatives, leur représentation se fait grâce à des diagrammes
en barres. Pour les variables qualitatives, elle se fera par des intervalles de valeurs.
L’objectif de cette méthode est de fournir une image synthétique du concept et de
comparer les concepts entre eux.
Application :
Nous avons décidé de nous focaliser sur quatre concepts pour cette méthode car
certains arrondissements parmi les 20 sont très proches les uns des autres.
C’est notamment le cas pour le 19ème et le 20ème arrondissement.
Page 16/32
Nous avons choisi quatre concepts assez différents les uns des autres : Paris 6ème,
Paris 13ème, Paris 16ème et Paris 19ème.
En ce qui concerne le paramétrage de la méthode, nous avons sélectionné neuf
variables pour la description des concepts :
- ‘’Prix’’
- ‘’Charges’’
Variables quantitatives
- ‘’Surface’’
- ‘’Lib_Chauffage’’
- ‘’Lib_NbPieces’’
Variables qualitatives
- ‘’Lib_TypeLocation’’
- ‘’Lib_TypeImmeuble’’
- ‘’Lib_Etages’’
- ‘’NbPieces’’
L’application de la méthode SOE sur les quatre concepts donne le résultat suivant :
Figure 13 : Etoile pour le concept Paris 6
ème
Figure 14 : Etoile pour le concept Paris 13ème
Page 17/32
Figure 15 : Etoile pour le concept Paris 16
ème
Figure 16 : Etoile pour le concept Paris 19ème
Interprétations :
Les offres de location des quatre arrondissements sont majoritairement des
appartements non meublés.
Les 13ème, 16ème et 19ème arrondissements proposent davantage des offres pour des
immeubles de type moderne alors que le 6ème arrondissement propose
majoritairement des offres pour des immeubles de type ancien.
Le nombre de pièces que nous retrouvons le plus souvent est deux pièces. C’est ce
que proposent majoritairement les 13ème et 16ème arrondissements. Quant au 19ème, il
propose autant d’appartements d’une pièce que d’appartements de deux pièces. Le
6ème propose en plus des appartements de quatre pièces.
La majorité des offres du 16ème arrondissement ne donne pas l’information de l’étage.
Le 13ème propose autant d’appartements au premier étage que d’appartements au
Page 18/32
5ème étage. Le 6ème propose majoritairement des appartements au 4 ème et 5ème étage.
Enfin, le 19ème propose quant à lui surtout des appartements au 6 ème étage.
Dans la majorité des offres de location, le type de chauffage n’est pas précisé pour
l’ensemble de ces quatre arrondissements.
L’arrondissement qui propose le plus d’appartements de grande taille est le 16ème : la
surface peut aller jusqu’à 150m². Paradoxalement, il est celui qui propose des
appartements de taille la plus petite : à savoir 11m². Nous pouvons supposer qu’il
s’agit de ‘’chambres de bonnes’’.
En seconde position, c’est le 6ème arrondissement qui propose des appartements de
taille assez grande : entre 20 et 105m².
Enfin les 13ème et 19ème arrondissements proposent des appartements allant de 0 à
90 m².
Les 6ème et 19ème arrondissements ont des charges qui s’élèvent au maximum à
150€/mois. Le 16ème arrondissement propose des appartements où les charges
peuvent aller jusqu’à 490€/mois. En effet, le 16ème est un arrondissement réputé
cher.
L’arrondissement où les prix des appartements sont les moins élevés parmi les
quatre est le 19ème arrondissement : les prix s’étalent de 380€ à 1450€/mois.
Second arrondissement le moins cher : le 13ème : les prix vont de 520€ à 1675€/mois.
Le 6ème propose des appartements beaucoup plus chers que ceux proposés dans les
19ème et 13ème arrondissements ; le prix peut atteindre 2800€/mois. Comme prévu,
l’arrondissement où les locations sont les plus chères est le 16ème. Le prix peut
atteindre 3900€/mois. Il est également possible de trouver des locations à
360€/mois, probablement pour les ‘’chambres de bonnes’’ de 11m².
Remarques :
Nous aurions pu représenter les objets symboliques par des graphiques en trois
dimensions mais nous avons trouvé que c’était moins lisible. Pour aller dans le détail,
il est possible à partir du graphique en deux dimensions de visualiser les
diagrammes en barres associés aux variables qualitatives. A titre d’exemple, nous
avons choisi de représenter la répartition des étages pour le 16ème arrondissement.
ème
Figure 17 : Répartition des étages pour Paris 16
Page 19/32
2.3.2 STAT : Histogram and Elementary statistics
Cette méthode étend aux objets symboliques, représentés par leur description,
plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble
aux méthodes statistiques traditionnelles appliquées sur des individus.
Pour les variables quantitatives, elle permet de représenter la répartition des
données via des histogrammes. Pour les variables qualitatives, elle permet de
représenter l’information (minimum, maximum et moyenne) via des diagrammes en
boîte.
L’objectif est de décrire la répartition des données variable par variable
indépendamment du concept.
Application :
Pour rester homogène, nous avons choisi de représenter les quatre concepts décrits
précédemment : Paris 6ème, 13ème, 16ème et 19ème.
Nous avons choisi d’étudier plus en détail deux variables : ‘’Prix’’ et ‘’Lib_Chauffage’’.
En ce qui concerne le paramétrage de la variable ‘’Prix’’, la méthode choisie est de
représenter les fréquences pour les intervalles. Nous avons retenu un découpage en
six classes.
En ce qui concerne le paramétrage de la variable ‘’Lib_Chauffage’’, nous avons
choisi de visualiser les capacités, autrement dit l’étendue des données : minimum,
maximum et moyenne.
L’application de la méthode STAT sur la variable ‘’Prix’’ donne le résultat suivant :
-------------------------------------------------------------------------------SODAS - STAT RELATIVE FREQUENCIES (INTERVAL)
File: location.SDS
Title: Location d'appartements à Paris
-------------------------------------------------------------------------------Prix
limits: 290.0 - 3900.0 class width: 602
class 1
class 2
class 3
class 4
class 5
class 6
0.2593
0.3751
0.1538
0.1145
0.0549
0.0425
Central tendancy: 1468.0302
Dispersion: 814.9622
Figure 18 : Listing STAT pour la variable ‘’Prix’’
Page 20/32
Figure 19 : Histogramme pour la variable ‘’Prix’’
Interprétations :
Pour les quatre concepts confondus, 38% des locations ont un prix qui varie entre
890€ et 1500€/mois.
Le prix moyen d’une location est de 1468€/mois.
26% des locations coûtent entre 290€ et 900€/mois et 4% des locations coûtent
entre 3300€ et 3900€/mois.
L’application de la méthode STAT sur la variable ‘’Lib_Chauffage’’ donne le résultat
suivant :
-------------------------------------------------------------------------------SODAS - STAT CAPACITIES
File: location.SDS
Title: Location d'appartements à Paris
-------------------------------------------------------------------------------capa
mini
0.9878
0.2778
0.7092
0.1643
0.4000
0.0000
0.1429
0.0000
maxi
mean
0.8571
0.2500
0.3571
0.1000
0.6238
0.0718
0.2616
0.0429
Lib_Chauffage
AB01
AB02
AB03
AB04
NR
Electrique
Gaz Central
Gaz Individuel
Figure 20 : Listing STAT pour la variable ‘’Lib_Chauffage’’
Page 21/32
Figure 21 : Diagrammes en boîte pour la variable ‘’Lib_Chauffage’’
Interprétations :
Si on considère le chauffage central, l’un des quatre concepts propose 14% des
appartements munis de ce type de chauffage, c’est la valeur minimum. Cela signifie
que les trois autres arrondissements ont des locations d’appartements qui sont
munis à plus de 14% de chauffage central. La valeur maximum est 36%, cela signifie
qu’un des quatre arrondissements disposent d’appartements qui sont à 36%
chauffés de type chauffage central.
En moyenne, tous concepts confondus, le chauffage de type central est présent dans
27% des locations.
En considérant toutes les offres de location d’appartements pour les quatre concepts
retenus, 62% en moyenne ne donnent pas l’information sur le type de chauffage,
27% en moyenne sont de type central, 7% de type électrique et 4% de type gaz
individuel.
La méthode STAT permet également d’étudier conjointement la répartition de deux
variables quantitatives. Prenons par exemple les variables ‘’Prix’’ et ‘’Surface’’.
Figure 22 : Bi plot des variables ‘’Prix’’ et ‘’Surface’’
Page 22/32
Interprétations :
Le 16ème arrondissement propose les appartements les plus chers mais également
les plus grands. Nous pouvons voir que le prix et la surface sont conjointement liés (il
existe une corrélation linéaire), ils évoluent dans le même sens. Plus la surface est
importante, plus le prix de la location est élevé.
Le 19ème est l’arrondissement qui dispose des plus petits appartements à des prix les
plus bas.
2.3.3 DIV : Divisive Classification
Cette méthode est une méthode de classification hiérarchique. Au départ les
concepts forment une unique partition. L’algorithme procède par division successive
de chaque classe. A chaque étape, une classe est divisée en deux classes selon une
question binaire. Cette question binaire induit le meilleur partage en deux classes
selon une extension du critère de l’inertie.
L’objectif est de regrouper au sein d’une même classe des concepts proches de par
leurs caractéristiques.
Application :
Pour cette méthode, nous avons conservé les vingt concepts initialement présents.
Nous avons réalisé deux classifications :
-
‘’Lib_Chauffage’’
‘’Lib_NbPieces’’
‘’Lib_TypeLocation’’
‘’Lib_TypeImmeuble’’
‘’Lib_Etages’’
Classification sur variables qualitatives
En ce qui concerne le paramétrage, il faut déterminer le nombre de classes à priori.
Nous avons considéré qu’il serait souhaitable de prendre la racine du nombre de
concepts, soit cinq classes.
-
‘’Prix’’
‘’Charges’’
‘’Surface’’
Classification sur variables quantitatives
En ce qui concerne le paramétrage, nous avons également considéré cinq classes.
L’application de la méthode DIV sur les variables qualitatives donne le résultat
suivant :
Page 23/32
----------------------------------------------------------------------------------------------BASE=C:\SODAS\Tmp\CIWT3V01.CMD nind=20 nvar=9 nvarsel=5
METHOD=DIVISIVE CLUSTERING
----------------------------------------------------------------------------------------------THE SELECTED VARIABLES ARE :
(1) :Lib_Chauffage (Initial order)
1- NR
2- Electrique
3- Gaz Central
4- Gaz Individuel
(2) :Lib_Etages (Initial order)
1- 6eme etage
2- 1er etage
3- NR
4- 2eme etage
5- Rez de chaussée
6- 5eme etage
7- 3eme etage
8- 7eme etage
9- 4eme etage
10- 8eme etage
11- 9eme etage
(3) :Lib_NbPieces (Initial order)
1- 1 pièce
2- 2 pièces
3- 3 pièces
4- 4 pièces
(4) :Lib_TypeImmeuble (Initial order)
1- Moderne
2- Ancien
(5) :Lib_TypeLocation (Initial order)
1- Meublé
2- Vide
PARTITION IN 5 CLUSTERS :
----------------------------------------Cluster 1 (n=4) :
"Paris 2e" "Paris 8e" "Paris 10e" "Paris 11e"
Cluster 2 (n=1) :
"Paris 3e"
Cluster 3 (n=1) :
"Paris 1e"
Cluster 4 (n=13) :
"Paris 4e" "Paris 5e" "Paris 7e" "Paris 9e" "Paris 12e" "Paris 13e" "Paris 14e" "Paris
15e" "Paris 16e" "Paris 17e"
"Paris 18e" "Paris 19e" "Paris 20e"
Cluster 5 (n=1) :
"Paris 6e"
Explicated inertia : 42.561832
Figure 23 : Résultats de la classification
Page 24/32
THE CLUSTERING TREE :
------------------------------------ the number noted at each node indicates the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=4)
!
!----1- [Lib_NbPieces <= 1 pièce]
!
!
+---- Classe 2 (Ng=1)
!
!
! !----3- [Lib_TypeLocation = Meublé]
! ! !
! ! ! +---- Classe 4 (Ng=13)
! ! ! !
! ! !---4- [Lib_TypeImmeuble = Moderne]
! !
!
! !
+---- Classe 5 (Nd=1)
! !
!----2- [Lib_Etages <= 5eme etage]
!
+---- Classe 3 (Nd=1)
Figure 23 bis : Arbre de classification
Interprétations :
Une première remarque est de dire que cette classification n’est pas satisfaisante
puisqu’elle créée trois classes qui ne sont composées que d’un seul concept. Seules
les classes 1 et 4 sont composées de plusieurs concepts.
Deuxième remarque : la variable ‘’Lib_chauffage’’ n’a pas été retenue pour la
classification. Elle n’a donc pas été jugée discriminante.
Enfin, nous pouvons également remarquer que seulement 43% de l’information est
reconstituée avec cette classification.
La première classe composée de quatre concepts (Paris 2ème, 8ème, 10ème et 11ème)
est caractérisée par des appartements en location qui sont majoritairement des
studios : une seule pièce.
La quatrième classe composée de treize concepts est caractérisée majoritairement
par des offres de location d’appartements qui ont plus d’une pièce, qui sont au
maximum au 5ème étage, qui sont loués non meublés et dont l’immeuble est de type
moderne.
Les autres classes, soit les autres concepts (Paris 1er, 3ème et 6ème) sont atypiques
puisqu’ils ne coïncident avec aucune autre classe. Le premier arrondissement de
Paris est caractérisé par des appartements de plus d’une pièce situés au minimum
au 6ème étage. Le troisième arrondissement de Paris est caractérisé par des
appartements de plus d’une pièce et meublés. Le 6ème arrondissement de Paris est
quant à lui, caractérisé par des appartements dont l’immeuble est de type ancien.
(Nous l’avons déjà remarqué lors de précédentes analyses).
Page 25/32
L’application de la méthode DIV sur les variables quantitatives donne le résultat
suivant :
BASE=C:\SODAS\Tmp\CIWT3V01.CMD nind=20 nvar=9 nvarsel=3
METHOD=DIVISIVE CLUSTERING
VARIANCE OF THE SELECTED VARIABLES :
Prix
: 524394.707500
Charges
: 41430.247500
Surface
: 514.862500
PARTITION IN 5 CLUSTERS :
---------------------------------------Cluster 1 (n=5) :
"Paris 2e" "Paris 9e" "Paris 10e" "Paris 18e" "Paris 19e"
Cluster 2 (n=8) :
"Paris 1e" "Paris 3e" "Paris 5e" "Paris 6e" "Paris 8e" "Paris 15e" "Paris 17e" "Paris
20e"
Cluster 3 (n=2) :
"Paris 7e" "Paris 14e"
Cluster 4 (n=4) :
"Paris 4e" "Paris 11e" "Paris 12e" "Paris 13e"
Cluster 5 (n=1) :
"Paris 16e"
Explicated inertia : 88.157322
THE CLUSTERING TREE :
------------------------------- the number noted at each node indicates the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=5)
!
!----3- [Prix <= 1071.250000]
! !
! +---- Classe 4 (Nd=4)
!
!----1- [Prix <= 1289.500000]
!
! +---- Classe 2 (Ng=8)
! !
!----2- [Prix <= 1760.500000]
!
! +---- Classe 3 (Ng=2)
! !
!----4- [Charges <= 153.750000]
!
+---- Classe 5 (Nd=1)
Figure 24 : Résultats de la classification
Page 26/32
Interprétations :
Les premières remarques que nous pouvons faire sont à propos de l’inertie
reconstituée, à savoir que 88% de l’information est reconstituée. Nous pouvons donc
affirmer que cette classification donne de meilleurs résultats que la précédente.
Enfin, la variable ‘’Surface’’ n’a pas été retenue pour diviser la population.
Une première classe est définie par des appartements dont le prix est inférieur à
1071.25€/mois. Elle est composée des arrondissements 2ème, 9ème, 10ème, 18ème et
19ème.
Une seconde classe est définie par des appartements dont le prix est supérieur à
1289.5€/mois. Il s’agit des arrondissements 1er, 3ème, 5ème, 6ème, 8ème, 15ème, 17ème et
20ème.
Une troisième classe est définie par des appartements dont le prix est supérieur à
1760.5€/mois et dont les charges sont à moins de 153.75€/mois. Il s’agit du 7ème et
du 14ème arrondissements.
Une quatrième classe est définie par des appartements dont le prix est compris entre
1071.25€ et 1289.5€/mois. Il s’agit du 4ème, 11ème, 12ème et 13ème arrondissements.
Enfin le 16ème arrondissement forme à lui seul une classe : les prix sont
majoritairement supérieurs à 1760.5€/mois et les charges supérieures à
153.75€/mois.
2.3.4 PYR : Pyramides
La méthode des pyramides généralise le principe des hiérarchies en permettant les
classes non disjointes à un niveau donné au lieu d’une partition. De plus, les
échantillons de la pyramide sont des intervalles.
Une pyramide est construite à partir d’un algorithme allant de la base vers le
sommet. Dans un échantillonnage pyramidale symbolique, chaque échantillon formé
est défini non seulement par l’ensemble de ses éléments- son extension- mais aussi
par l’objet symbolique, qui décrit ses propriétés- son intention.
Les données en entrée pour PYR sont une matrice de données symboliques ou une
matrice de distance.
L’objectif est de regrouper des concepts proches de par leurs caractéristiques en
permettant de trouver des concepts dans plusieurs classes.
Application :
Pour cette méthode, nous avons considéré une partie des vingt concepts et quelques
une des variables. Nous avons choisi les variables ‘’Prix’’ et ‘’Surface’’ comme
variables quantitatives et les variables ‘’Lib_TypeLocation’’, ‘’Lib_TypeImmeuble’’,
‘’Lib_Etages’’, ‘’Lib_NbPieces’’ comme variables qualitatives.
Page 27/32
La classification pyramidale donne les résultats suivants :
DESCRIPTION-OF-THE-NODES
Where_the_labels_are_of_the_individuals_are:
1.="Paris_1e"
2.="Paris_2e"
3.="Paris_5e"
5.="Paris_8e"
6.="Paris_9e"
7.="Paris_13e"
9.="Paris_16e"
10.="Paris_17e"
11.="Paris_19e"
4.="Paris_6e"
8.="Paris_15e"
12.="Paris_20e"
Where_the_labels_are_of_the_variables_are:
Y4=Lib_NbPieces y7=Prix
y9=Surface
Figure 25 : Paramètres de la méthode PYR
Figure 26 : Pyramide
2.3.5 PCM : Principal Component and Factorial Analysis
La méthode PCM reprend les principes de l’analyse en composantes principales et
ceux de l’analyse factorielle des correspondances disponibles en analyse statistique
classique.
L’analyse en composantes principales, nommée ‘’ACP’’ se base sur des variables
quantitatives. Elle a pour objectif de grouper les individus qui ont des valeurs
proches.
L’analyse factorielle des correspondances, nommée ‘’AFCM’’ se base quant à elle
sur des variables qualitatives. Elle a pour objectif de grouper les individus qui ont des
modalités proches.
Page 28/32
L’objectif de cette méthode sur le tableau de données symboliques est le même que
pour l’analyse classique, mis à part qu’il s’agit de grouper des concepts et non plus
des individus.
Application :
Nous avons appliqué la méthode PCM sur les variables quantitatives : ‘’Prix’’,
‘’Surface’’ et ‘’Charges’’.
Elle nous donne les résultats suivants :
Matrix of input data:
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
Prix
Charges
Surface
1e" [800.00 , 2200.00] [0.00 , 130.00] [20.00 , 93.00]
2e" [610.00 , 950.00] [0.00 , 50.00] [24.00 , 47.00]
3e" [545.00 , 2400.00] [0.00 , 150.00] [20.00 , 100.00]
4e" [450.00 , 2000.00] [0.00 , 80.00] [10.00 , 77.00]
5e" [696.00 , 2300.00] [0.00 , 150.00] [17.00 , 80.00]
6e" [710.00 , 2800.00] [0.00 , 150.00] [20.00 , 105.00]
7e" [500.00 , 3100.00] [0.00 , 135.00] [14.00 , 117.00]
8e" [330.00 , 2500.00] [0.00 , 180.00] [9.00 , 59.00]
9e" [430.00 , 1100.00] [0.00 , 140.00] [14.00 , 66.00]
10e" [490.00 , 1600.00] [0.00 , 150.00] [17.00 , 90.00]
11e" [430.00 , 1790.00] [0.00 , 120.00] [15.00 , 80.00]
12e" [396.00 , 2100.00] [0.00 , 700.00] [13.00 , 86.00]
13e" [520.00 , 1675.00] [0.00 , 850.00] [20.00 , 90.00]
14e" [382.00 , 3150.00] [0.00 , 125.00] [9.00 , 100.00]
15e" [572.00 , 2800.00] [0.00 , 170.00] [20.00 , 86.00]
16e" [360.00 , 3900.00] [0.00 , 480.00] [11.00 , 150.00]
17e" [470.00 , 2450.00] [0.00 , 210.00] [18.00 , 110.00]
18e" [290.00 , 1350.00] [0.00 , 114.00] [14.00 , 75.00]
19e" [380.00 , 1450.00] [0.00 , 140.00] [0.00 , 80.00]
20e" [412.00 , 2250.00] [0.00 , 165.00] [12.00 , 120.00]
Matrix Variance/Covariance :
Prix 995921.3750
3354.6362
Charges 3354.6362
32754.6992
Surface
3094.1851
302.5675
Correlations Matrix :
Prix
1.0000
0.0186
Charges
0.0186
1.0000
Surface
0.0752
0.0405
3094.1851
302.5675
1701.2600
0.0752
0.0405
1.0000
Propers Values and inerty percentage:
Prix= 1.094 (36.47%) Charges= 0.985 (32.82%) Surface= 0.921 (30.71%)
Figure 27 : Résultats de la PCM sur les variables quantitatives
Page 29/32
Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 :
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
"Paris
1e" [-1.12, 1.23] [-1.05, 0.44] [-1.16, 1.20] [-1.16, 1.20]
2e" [-1.17, -0.47] [-0.34, 0.13] [-0.18, 0.51] [-0.18, 0.51]
3e" [-1.27, 1.52] [-1.16, 0.66] [-1.31, 1.49] [-1.31, 1.49]
4e" [-1.49, 0.74] [-0.91, 0.39] [-1.15, 1.14] [-1.15, 1.14]
5e" [-1.23, 1.13] [-1.05, 0.60] [-1.30, 1.04] [-1.30, 1.04]
6e" [-1.17, 1.84] [-1.36, 0.58] [-1.57, 1.47] [-1.57, 1.47]
7e" [-1.40, 2.19] [-1.53, 0.62] [-1.85, 1.82] [-1.85, 1.82]
8e" [-1.59, 0.98] [-1.08, 0.93] [-1.61, 0.90] [-1.61, 0.90]
9e" [-1.44, 0.14] [-0.47, 0.68] [-0.57, 0.96] [-0.57, 0.96]
10e" [-1.36, 0.86] [-0.77, 0.69] [-0.85, 1.35] [-0.85, 1.35]
11e" [-1.43, 0.75] [-0.82, 0.58] [-0.97, 1.21] [-0.97, 1.21]
12e" [-1.48, 2.35] [-0.98, 3.43] [-1.93, 1.34] [-1.93, 1.34]
13e" [-1.29, 2.49] [-0.80, 4.08] [-1.71, 1.33] [-1.71, 1.33]
14e" [-1.55, 1.92] [-1.50, 0.64] [-1.96, 1.59] [-1.96, 1.59]
15e" [-1.26, 1.58] [-1.30, 0.74] [-1.60, 1.22] [-1.60, 1.22]
16e" [-1.53, 4.01] [-1.99, 2.38] [-2.85, 2.49] [-2.85, 2.49]
17e" [-1.35, 1.85] [-1.21, 0.99] [-1.46, 1.71] [-1.46, 1.71]
18e" [-1.53, 0.38] [-0.61, 0.61] [-0.70, 1.21] [-0.70, 1.21]
19e" [-1.70, 0.58] [-0.67, 0.74] [-1.04, 1.24] [-1.04, 1.24]
20e" [-1.49, 1.78] [-1.15, 0.81] [-1.38, 1.93] [-1.38, 1.93]
Correlations Matrix, initiales Variables/principals components PC1...PC4
Prix 0.646 -0.448 -0.618 -0.618
Charges 0.430 0.877 -0.216 -0.216
Surface 0.702 -0.125 0.702 0.702
Figure 27 bis : Résultats de la PCM sur les variables quantitatives
Figure 28 : Graphique des deux premiers axes
Page 30/32
Interprétations :
La donnée de plus grande variabilité est le prix, en effet nous avons vu que le prix
pouvait varier de 290€/mois à 3900€/mois.
La donnée la moins variable est la surface. En effet, la surface varie entre 9m² et
150m².
La matrice de corrélation détermine les liaisons 2 à 2 des variables. Les variables ne
sont pas liées sur l’ensemble des concepts. Il nous paraît étonnant que le prix de
la location ne soit pas lié à la surface mais il est vrai que dans un quartier comme le
16ème arrondissement, les locations petites ou grandes sont très chères et qu’un petit
appartement dans cet arrondissement peut coûter aussi cher qu’un appartement plus
vaste dans un quartier comme le 19ème. En ce sens, les données peuvent être
faussées.
Les valeurs propres nous donnent l’inertie reconstituée par axe. L’axe 1 reconstitue
presque 37% de l’information, l’axe 2 reconstitue 33% et l’axe 3 : 30.71%.
Seuls trois axes contribuent à l’inertie totale.
Les valeurs propres associées aux trois variables quantitatives sont proches de 1 et
c’est une règle pour conserver les axes : nous conservons les trois axes.
Page 31/32
Conclusion
Ce projet nous a permis d’appréhender les bases du datamining, de voir que cela
correspond à une variante de l’analyse statistique classique. En effet au lieu d’étudier
le comportement d’individus, nous avons étudié le comportement de groupes
d’individus, à savoir des concepts.
Les méthodes statistiques sont très proches de celles vues en statistique classique :
nous retrouvons les statistiques élémentaires (histogramme, intervalles, diagrammes
en boites, biplots) et les méthodes multi variées (classification, analyses en
composantes principales…)
Ce projet nous aura également permis d’exploiter un logiciel de datamining. Cet outil
est assez simple d’utilisation mais il permet peu de paramétrage et gagnerait à être
plus ergonomique.
Nous n’avons eu aucun problème pour les méthodes présentes dans ce rapport mais
n’avons pas réussi à mettre en œuvre deux des méthodes : TREE et FDA.
En ce qui concerne le sujet à proprement parler, nous avons confirmé nos intuitions,
à savoir les différences entre arrondissements et leurs caractéristiques.
Page 32/32
Téléchargement