Projet de Datamining

publicité
Antonio Rodrigues (DESS SITN)
Projet de Datamining :
Etude d’une base de données sur les plantes d’eau douce
Février 2004
A l’attention de Mr Diday
Antonio Rodrigues (DESS SITN)
SOMMAIRE
I. INTRODUCTION
3
II. PRESENTATION GENERALE
4
II.1. LE DATAMINING
II.1.1. PRESENTATION
II.1.2. PRINCIPALES APPLICATIONS
II.1.3. ETAT DE L’ART DU MARCHE
II.2. LE LOGICIEL SODAS
II.2.1. PRESENTATION GENERALE
II.2.2. INTERFACE DU LOGICIEL
4
4
4
5
7
7
8
III. APPLICATION
10
III.1. CHOIX DE LA BASE DE DONNEE
III.2. DETAILS SUR LA BASE
III.2.1. LES INDIVIDUS, CONCEPTS ET VARIABLES
III.2.2. LES REQUETES
III.3. DB2SO
III.3.1. PRESENTATION
III.3.2. APPLICATION
III.4. APPLICATION DES METHODES
III.4.1. SOE
III.4.1.a. Présentation
III.4.1.b. Application
III.4.2. STAT
III.4.2.a. Présentation
III.4.2.b. Application
III.4.3. DIV
III.4.3.a. Présentation
III.4.3.b. Application
III.4.4. TREE
III.4.4.a. Présentation
III.4.4.b. Application
III.4.5. PCM
III.4.5.a. Présentation
III.4.5.b. Application
10
10
10
12
12
12
13
15
15
15
15
19
19
19
23
23
23
26
26
26
27
27
27
IV. CONCLUSION
29
V. BIBLIOGRAPHIE
30
Projet de Datamining
2
Antonio Rodrigues (DESS SITN)
I. Introduction
Si la rapidité de traitement de l’information, assuré par les technologies nouvelles, est un
critère essentiel pour une entreprise, la prise de décisions efficaces n’en est pas moins. En
effet, les entreprises étant en perpétuel concurrence, il devient nécessaire d’extraire et
d’analyser les bons indicateurs afin d’adopter les bonnes décisions.
Les entreprises s’intéressent de plus en plus au datamining, probablement à cause des
promesses de rentabilité immédiate que vantent les fournisseurs de technologies et dont les
médias se font l’écho. Une étude récente du cabinet IDC, spécialisé dans les études
quantitatives des marchés de technologies, souligne que plus de la moitié des entreprises
américaines ont ou vont acheter un outil de datamining. Les différentes études de marché
estiment que la taille du marché du datamining était d’environ 300 millions de francs (source
: Meta Group) et tablent sur 5 milliards en l’an 2000, soit un taux de croissance annuelle de
plus de 40 %.
S’appuyant souvent sur un entrepôt de données ou une simple base de données, le
datamining va permettre de guider le décideur grâce à des méthodes le plus souvent
éprouvées. Il est alors intéressant pour un étudiant achevant son cycle dans d’études dans
le domaine des nouvelles technologies, d’étudier cette science qu’il sera certainement
amener à côtoyer dans la vie active.
Bien que connaître les différentes méthodes d’analyse soit important, il est très intéressant
en terme de datamining de s’appuyer sur un logiciel apte à analyser les données
symboliques afin de gagner en terme de volumétrie et de vitesse de traitement. Ainsi ce
projet s’appuiera sur l’outil SODAS que nous détaillerons au préalable.
Ce rapport se divisera en deux grandes parties : Une présentation générale du datamining
ainsi que du logiciel SODAS et une application à un cas concret (une base de données
réaliste).
Projet de Datamining
3
Antonio Rodrigues (DESS SITN)
II. Présentation générale
II.1. Le datamining
II.1.1. Présentation
Ou exploration de données. C’est un ensemble de méthodes et de techniques qui permet
d'extraire des informations à partir d'une grande masse de données. Son utilisation permet
par exemple d'établir des corrélations entre ces données et de définir des comportementstype de clients.
Ainsi Le datamining, ou prospection de données, est un ensemble de méthodes et de
techniques d'analyse dont les applications peuvent servir à mieux connaître les clients de
l'entreprise. Ce prolongement des statistiques, qui figure selon le Massachussets Institute of
Technology parmi les dix technologies qui vont changer le monde, sert à extraire des
informations d'une masse de données brutes atteignant souvent plusieurs térabits ! On peut
ainsi repérer des relations systématiques entre différentes variables, comme le fait d'acheter
des chips et de la bière le samedi matin et de regarder le match de football le samedi aprèsmidi. Les techniques associées au datamining s'appuient sur la théorie de l'information, sur
des méthodes statistiques et également sur celles de l'intelligence artificielle. Les données à
explorer sont stockées dans de gigantesques entrepôts nommés datawarehouse mais
peuvent aussi se trouver dans des infocentres plus traditionnels. Extraire des informations
pertinentes à partir du nombre colossal de combinaisons possibles de ces données requiert
une puissance d'analyse énorme que seuls de grands systèmes peuvent supporter.
II.1.2. Principales applications
 Grande distribution et VPC : Analyse des comportements des consommateurs,
recherche des similarités des consommateurs en fonction de critères géographiques
ou sociodémographiques, prédiction des taux de réponse en marketing direct, vente
croisée et activation sélective dans le domaine des cartes de fidélité, optimisation des
réapprovisionnements.
 Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de
médications ou de visites, optimisation des plans d’action des visiteurs médicaux
pour le lancement de nouvelles molécules, identification des meilleures thérapies
pour différentes maladies.
 Banques : Recherche de formes d’utilisation de cartes caractéristiques d’une fraude,
modélisation prédictive des clients partants, détermination de pré autorisations de
crédit revolving, modèles d‘arbitrage automatique basés sur l’analyse de formes
historiques des cours.
 Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche
des critères explicatifs du risque ou de la fraude, prévision d’appels sur les platesformes d’assurance directe.
Projet de Datamining
4
Antonio Rodrigues (DESS SITN)
 Aéronautique, automobile et industries : Contrôle qualité et anticipation des
défauts, prévisions des ventes, dépouillement d’enquêtes de satisfaction.
 Transport et voyagistes : Optimisation des tournées, prédiction de carnets de
commande, marketing relationnel dans le cadre de programmes de fidélité.
 Télécommunications, eau et énergie : Simulation de tarifs, détection de formes de
consommation.
II.1.3. Etat de l’art du marché
Intelligent Miner d’IBM
Volumes : Pas de limites
Liens aux données : DB2, fichiers
Méthodes de modélisation : Multiples
Intégration des résultats : API
Catégorie : Poids lourd
Utilisateurs : Experts
Clementine de SPSS
Volumes : Peu de limites
Liens aux données : SGBD et fichiers
Méthodes de modélisation : Multiples
Intégration : des résultats API
Catégorie : Intermédiaire intégré
Utilisateurs : Avertis
SAS Enterprise Miner SAS
Volumes : Peu de limites
Liens aux données : SAS, SGBD et
fichiers
Méthodes de modélisation : Multiples
Intégration des résultats : Catégorie : Poids lourd
Utilisateurs : Avertis
4Thought de Cognos
Volumes : Peu de limites
Liens aux données : SGBD
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats :
Programme Excel ou langage C
Catégorie : Intermédiaire spécialisé
Utilisateurs : Avertis
Predict de NeuralWare
Volumes : Quelques milliers
d'enregistrements
Liens aux données : SGBD
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats : Sans objet
Catégorie : PC de bureau
Utilisateurs : Néophytes
Previa de Elseware
Volumes : Quelques milliers de
records
Liens aux données : Fichiers
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats : Catégorie : PC de bureau
Utilisateurs : Néophytes
Projet de Datamining
5
Antonio Rodrigues (DESS SITN)
Saxon de Pmsi
Volumes : Peu de limites
Liens aux données : Fichiers
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats :
Programme C
Catégorie : Intermédiaire spécialisé
Utilisateurs : Experts
Strada Complex System
Volumes : Quelques milliers de
records
Liens aux données : Fichiers
Méthodes de modélisation : Réseaux
de neurones, algorithmes génétiques
Intégration des résultats : Catégorie : Intermédiaire spécialisé
Utilisateurs : Avertis
Scenario de Cognos
Volumes : Quelques milliers
d’enregistrements
Liens aux données : SGBD, Fichiers
Méthodes de modélisation : Arbres
de décision
Intégration des résultats : Catégorie : PC de bureau
Utilisateurs : Néophytes
Alice de Isoft
Volumes : Quelques milliers
d’enregistrements
Liens aux données : SGBD, Fichiers
Méthodes de modélisation : Arbres
de décision
Intégration des résultats : Catégorie : PC de bureau
Utilisateurs : Néophytes
Knowledge Seeker Angoss
Volumes : Quelques milliers
d’enregistrements
Liens aux données : SGBD, Fichiers
Méthodes de modélisation : Arbres
de décision
Intégration des résultats : SQL
Catégorie : Intermédiaire spécialisé
Utilisateurs : Néophytes
Datamind D’Epiphany
Volumes : Quelques milliers
d’enregistrements
Liens aux données : SGBD, Fichiers
Méthodes de modélisation : Intégration des résultats : Catégorie : PC de
bureau/Intermédiaire
Utilisateurs : Néophytes
Wizwhy de Wizsoft
Volumes : Quelques milliers
d’enregistrements
Liens aux données : SGBD, Fichiers
Méthodes de modélisation :
Associations
Intégration des résultats : Catégorie : PC de bureau
Utilisateurs : Néophytes
SPAD de CISIA
Volumes : Quelques milliers
d’enregistrements
Liens aux données : SGBD, Fichiers
Méthodes de modélisation : Multiples
Intégration des résultats : Fichiers
Catégorie : PC de
bureau/Intermédiaire
Utilisateurs : Avertis
Projet de Datamining
6
Antonio Rodrigues (DESS SITN)
II.2. Le logiciel SODAS
II.2.1. Présentation générale
Il s'agit d'un logiciel prototype public (accessible à www.cisia.com) apte à analyser
des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le
logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du
domaine.
Son idée générale est la suivante : à partir d'une base de données, construire un tableau de
données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des
concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en
extraire des connaissances par des méthodes d'analyse de données symboliques.
Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

Partir d'une base de données relationnelle (ORACLE, ACCESS, ...)

Définir ensuite un contexte par des unités statistiques de premier niveau (habitants,
familles, entreprises, accidents, ...), les variables qui les décrivent des concepts (villes,
groupes socio-économiques, scénario d'accident,...)

Chaque unité statistique de premier niveau est associée à un concept (par exemple,
chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base.

On construit alors un tableau de données symboliques dont les nouvelles unités
statistiques sont les concepts décrits par généralisation des propriétés des unités
statistiques de premier niveau qui leur sont associés.
Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies) etc., selon le type de variables et le choix de l'utilisateur.
On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de
méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel
SODAS (histogrammes des variables symboliques, classification automatique, analyse
factorielle, analyse discriminante, visualisations graphiques,...).
[Ref : http://www.ceremade.dauphine.fr/~touati/sodas-presentation.htm]
Voici un schéma présentant les différentes possibilités offertes par SODAS :
Projet de Datamining
7
Antonio Rodrigues (DESS SITN)
II.2.2. Interface du logiciel
Pour ce projet nous avons travaillé avec la version 1.2.0 du logiciel SODAS. En voici son
interface principale :
 Barre de menu :
C’est dans le menu SODAS file que l’on fait appel à DB2SO.
 Fenêtre « Chaining » :
Elle permet de gérer la chaîne de traitement (application de méthodes) sur les données
extraites de la base.
Projet de Datamining
8
Antonio Rodrigues (DESS SITN)
Les méthodes
sont insérées à
partir de la
fenêtre
« Methods »
Projet de Datamining
9
Antonio Rodrigues (DESS SITN)
III. Application
III.1. Choix de la base de donnée
La base de données choisie pour ce projet a fait l’objet de plusieurs recherches sur
internet. En effet, afin d’obtenir des données originales et réelles, il a fallut parcourir un
certains nombre de sites web.
Mon choix s’est porté sur une base de données au sujet des plantes d’eau douce
trouvée sur le site http://r.mourreal.free.fr/basedonnee.html.
Le site fournit une base de donnée sur les plantes sous la forme d’un fichier excel. Ce fichier
représente en réalité une seule et unique table regroupant plus de 100 individus. Après
l’avoir migré sous Access et avoir rajouté deux tables pour faciliter les requêtes (notamment
la création d’une taxonomie), il a alors été possible de débuter le traitement des données
ainsi recueillies avec SODAS.
III.2. Détails sur la base
III.2.1. Les individus, concepts et variables
Projet de Datamining
10
Antonio Rodrigues (DESS SITN)
 Les individus sont les plantes (le nom commun).
 Le concept choisi est le continent d’origine de la plante.
L’intérêt d’un tel concept est de constater (éventuellement) une quelconque corrélation entre
l’origine de la plante et la différentes variables telles que la catégorie ou la température.
Le nombre de concepts à prendre en compte avec la définition précédente est de 10 :
Afrique
Amérique
Amérique/Asie
Amérique/Europe/Afrique
Amérique/Europe/Asie
Asie
Asie/Afrique
Cosmopolite
Europe
Océanie
 Les variables sont au nombre de 17, avec :
o
9 variables quantitatives :
-
o
phMin
phMax
dGhmin
dGhmax
TempMin
TempMax
Continents2
MoyTempMin (température min moyenne pour un concept)
MoyTempMax (température max moyenne pour un concept)
8 variables quantitatives :
-
Famille
Origine
Catégorie
Luminosité
Type de feuilles
Hauteur du bac
Forme feuilles
Multiplication
Projet de Datamining
11
Antonio Rodrigues (DESS SITN)
III.2.2. Les requêtes
 Info_plantes : Sélection des individus
SELECT plantes.[Nom commun], Continents.Continent, plantes.Famille,
Origines.Origine, plantes.Categorie, plantes.[ph min], plantes.[ph max],
plantes.[dGh min], plantes.[dGh max], plantes.[Temp min], plantes.[Temp
max], plantes.Luminosité, plantes.[Type de feuilles], plantes.[Hauteur du
bac], plantes.[Type feuilles] AS [Forme feuilles], plantes.Multiplication
FROM (Origines INNER JOIN Continents ON
Origines.Continent_id=Continents.Continent_id) INNER JOIN plantes ON
Origines.orig_id=plantes.origine_id;
 Info_Continents : Apporte deux informations supplémentaires au concept choisi : la
température moyenne min et la température moyenne max pour un concept donné.
SELECT DISTINCTROW Continents.Continent, Continents.Continent AS
Continent2, Avg(plantes.[Temp min]) AS Moy_tmp_min, Max(plantes.[Temp max])
AS Moy_tmp_max
FROM (Origines INNER JOIN Continents ON Origines.Continent_id =
Continents.Continent_id) INNER JOIN plantes ON Origines.orig_id =
plantes.origine_id
GROUP BY Continents.Continent, Continents.Continent;
 Taxo_Origine : Taxonomie associant les origines des différentes plantes à un
continent
SELECT Origines.Origine, Continents.Continent
FROM Continents INNER JOIN Origines ON Continents.Continent_id =
Origines.Continent_id;
III.3. DB2SO
III.3.1. Présentation
Abréviation pour « Data Base To Symbolic Object », DB2SO est un outil fournit avec
SODAS permettant de transformer les données d’une base de données en un ensemble de
concepts. Dans la pratique il va permettre de générer un fichier .gaj puis un fichier .sds
(celui-ci sera nécessaire à SODAS pour l’analyse) à partir de la source de données.
DB2SO est appelé à partir du menu SODAS file > Import… > Importation (DB2SO).
Projet de Datamining
12
Antonio Rodrigues (DESS SITN)
III.3.2. Application
Une fois DB2SO ouvert, cliquer sur File > New et choisir le data source et le fichier de
données. Ici, il faudra choisir un data source MS Access et comme fichier plantes.mdb.
Ensuite, la requête d’extraction des individus est demandée. Dans notre cas, elle est
prédéfinie dans le fichier Access et porte le nom de Info_plantes :
Après insertion de toutes les variables, on obtient 17 variables dont 8 qualitatives et 8
quantitatives ainsi que 10 concepts :
Projet de Datamining
13
Antonio Rodrigues (DESS SITN)
File > Save As… permet de sauvegarder le fichier en .gaj anfin de pouvoir ensuite l’exporter
en .sds en faisant File > Export…
Une fois ceci effectué, le module DB2SO peut être fermé, la prochaine étape est le
« chaining ».
Projet de Datamining
14
Antonio Rodrigues (DESS SITN)
III.4. Application des méthodes
III.4.1. SOE1
III.4.1.a. Présentation
SOE (Symbolic Object Editor) est une méthode permettant de présenter l’ensemble
des concepts et des variables associées (ou une partie seulement) d’un fichier SODAS sous
forme d’une table. En sélectionnant un concept et au minimum trois variables, il est possible
de visualiser un schéma en étoile 2D ou 3D les représentant. Ces schémas représentent ce
qu’on appelle des objets symboliques, ceux-ci pouvant se définir comme un concept associé
à un certains nombres de ses variables. Par extension, on peux appeler objet symbolique
une ligne de la table que fournit la méthode SOE.
Ce type de représentation synthétique permet d’analyser rapidement et efficacement
les objets symboliques (la visualisation permet de distinguer les valeurs importantes) et de
comparer ces même objets entre eux (En effet, SOE permet l’affichage de plusieurs
schémas en simultané).
III.4.1.b. Application
Etudions les concepts Amérique, Asie et Afrique.
 Amérique
1
Les présentations des méthodes ont été inspirées par le site officiel de SODAS. Elles permettent au lecteur de
disposer immédiatement d’une présentation concise de la méthode.
Projet de Datamining
15
Antonio Rodrigues (DESS SITN)
A l’aide de ce graphique nous remarquons que les plantes d’Amérique nécessitent une forte
luminosité et possèdent des feuilles dressées et tendres.
De plus il n’est nul besoin d’être expert pour entretenir la plupart des plantes répertoriées
puisque la catégorie débutant est prépondérante. Cependant, pour plus de 20% des
individus il est conseillé de posséder des connaissances qui dépassent le stade de simple
amateur.
Luminosité & Catégorie :
 Asie
Projet de Datamining
16
Antonio Rodrigues (DESS SITN)
L’Asie possède en majorité des plantes ayant des feuilles en forme de rosette, cependant les
formes « feuilles en rosette » et « feuilles dressés » se retrouvent en quantités pratiquement
égales. A l’instar du précédent continent les plantes d’eau douce asiatique ont
majoritairement besoin d’une luminosité forte.
La catégorie « débutant » est plus importante ici puisque 57% des plantes répertoriés ne
nécessitent qu’un niveau débutant pour l’entretien.
Forme & Catégorie :
 Afrique
Projet de Datamining
17
Antonio Rodrigues (DESS SITN)
La particularité des plantes africaines est qu’elles nécessitent en majorité un niveau
d’amateur pour pouvoir les entretenir correctement. Le niveau débutant se retrouvant
délégué lion derrière, à 25% :
 Synthèse :
Plusieurs points rapprochent les trois continents étudiés :
-
La luminosité (forte)
La température (intervalles sensiblement identiaques)
Le type de feuilles (tendres)
Cependant des continents se détachent sur certains points :
-
L’Afrique semble réserver en majorité des plantes nécessitant au minimum un
niveau d’amateur contrairement à l’Amérique et à l’Asie.
L’Amérique dispose d’une majorité de plantes avec des feuilles dressées,
l’Afrique une majorité de plantes avec des feuilles en rosette et l’Asie dispose
d’une quantité équivalente des deux formes évoquées précédemment.
Projet de Datamining
18
Antonio Rodrigues (DESS SITN)
III.4.2. STAT
III.4.2.a. Présentation
STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques,
représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux
données :
i)
ii)
iii)
iv)
v)
Fréquences relatives pour variables multimodales
Fréquences relatives pour variables intervalles
Capacités et min/max/mean pour variables multimodales probabilistes
Biplot pour variables intervalles
Objet central.
III.4.2.b. Application
L’étude de STAT portera sur les deux méthodes suivantes :
-
i)
Fréquences relatives pour variables intervalles
Capacités et min/max/mean pour variables multimodales probabilistes
Biplot pour variables intervalles
Fréquences relatives pour variables intervalles
On étudie la variable température minimum sur 11 classes :
Projet de Datamining
19
Antonio Rodrigues (DESS SITN)
Chaque classe a une valeur de 1°. Les classes prédominantes sont [18°, 19°] et [19°, 20°].
On constate une concentration des températures minimum sur l’intervalle [18°, 22°] qui
regroupe la majorité des températures minimums des plantes. A contrario, à partir de 24° il y
a très peu de plantes.
De même on peut analyser la variable phMin sur 10 classes :
On constate très bien une concentration du ph min entre 5 et 7. En dessous de cet intervalle,
on trouve très peu de plante qui ont un ph correspondant.
ii) Capacités et min/max/mean pour variables multimodales probabilistes
Nous choisissons d’étudier la variable Catégorie.
Projet de Datamining
20
Antonio Rodrigues (DESS SITN)
Les modalités Amateur, Amateur averti et Débutant se démarquent par le fait qu’elles
atteignent la probabilité 1 : On peut être sûr de retrouver toujours, pour certains concepts
(Contient d’origine) une des modalités citées précédemment.
En revanche la probabilité maximum (et en moyenne) de trouver la catégorie spécialiste est
très faible.
En moyenne, la catégorie Amateur est en tête suivie par la Débutant. Il apparaît en outre
qu’aucune catégorie n’est présente à la fois dans tous les concepts puisque toute ont un
seuil de probabilité minimum de 0.
iii) Biplot pour les variables intervalles
Afin de rendre les résultats plus lisibles, seuls trois concepts seront étudiés (Comopolite,
Afrique et Amérique). Il est de plus apparu que de nombreux concepts se confondaient, il
était donc inutile de tous les représenter.
Projet de Datamining
21
Antonio Rodrigues (DESS SITN)
Ce graphique nous permet de constater que l’Amérique couvre une zone de ph minimu et de
température important. Concrètement, on peut alors imaginer trouver en Amérique, avec
plus de probabilité, une plante pouvant s’adapter à un certain milieu prédéfini.
A contrario, les plantes d’Afrique ou provenant d’autres régions du monde (tels les régions
tropicales) sont toutes dans une zone de ph restreinte. Ce qui signifie qu’avant de se
procurer une plante d’eau douce provenant d’Afrique, il faut au moins s’assurer que le ph
minimum de son aquarium se trouve entre 6 et 7.
Ainsi cette étude qui pouvait paraître sans intérêt (effectivement, comparer ph et température
ne parait pas très révélateur de prime abord) nous a permis de constater que dans des
conditions de vie difficilement définissable ou particulière (i.e. ph faible), il convient de se
diriger vers les plantes d’Amérique qui offre une amplitude importante tant au niveau du ph
minimum que de la température de l’environnement aquatique.
Projet de Datamining
22
Antonio Rodrigues (DESS SITN)
III.4.3. DIV
III.4.3.a. Présentation
DIV est une méthode de classification hiérarchique qui débute avec tous les objets d’une
classe et procède par divisions successives de chaque classe. A chaque étape, une classe
est divisée en deux classes selon une question binaire. Cette question binaire induit le
meilleur partage en deux classes selon une extension du critère de l’inertie.
L’algorithme s’arrête après K-1 divisions, où K représente le nombre de classes renseignées
par l’utilisateur.
III.4.3.b. Application
Les variables étudiés sont le dGhMin et la température. Le nombre de classes est fixé à 5.
Le dGh correspond à la teneur de l'eau en carbonates de sodium ou de magnésium ainsi
qu'en sulfates de sodium ou de magnésium (en degrés allemands). Plus l'eau comprend une
concentration élevée en ces composés, plus l'eau est dite dure (pour comparaison, le KH lui
ne prend en compte que la teneur de l'eau en carbonates).
Voici le résultat obtenu :
VARIANCE OF THE SELECTED VARIABLES :
-----------------------------------dGh_min
: 2.640000
Temp_min
: 11.330000
------------------------------------------------------PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=3) :
"Amérique/Asie" "Amérique/Europe/Asie" "Europe"
Cluster 2 (n=7) :
"Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie"
"Amérique/Europe/Afrique" "Asie/Afrique"
Explicated inertia : 48.733681
PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=3) :
"Amérique/Asie" "Amérique/Europe/Asie" "Europe"
Projet de Datamining
23
Antonio Rodrigues (DESS SITN)
Cluster 2 (n=2) :
"Amérique/Europe/Afrique" "Asie/Afrique"
Cluster 3 (n=5) :
"Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie"
Explicated inertia : 66.117872
PARTITION IN 4 CLUSTERS :
-------------------------:
Cluster 1 (n=1) :
"Amérique/Europe/Asie"
Cluster 2 (n=2) :
"Amérique/Europe/Afrique" "Asie/Afrique"
Cluster 3 (n=5) :
"Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie"
Cluster 4 (n=2) :
"Amérique/Asie" "Europe"
Explicated inertia : 74.230494
PARTITION IN 5 CLUSTERS :
-------------------------:
Cluster 1 (n=1) :
"Amérique/Europe/Asie"
Cluster 2 (n=2) :
"Amérique/Europe/Afrique" "Asie/Afrique"
Cluster 3 (n=4) :
"Cosmopolite" "Afrique" "Asie" "Océanie"
Cluster 4 (n=2) :
"Amérique/Asie" "Europe"
Cluster 5 (n=1) :
"Amérique"
Explicated inertia : 80.672870
PARTITION IN 6 CLUSTERS :
Projet de Datamining
24
Antonio Rodrigues (DESS SITN)
-------------------------:
Cluster 1 (n=1) :
"Amérique/Europe/Asie"
Cluster 2 (n=2) :
"Amérique/Europe/Afrique" "Asie/Afrique"
Cluster 3 (n=4) :
"Cosmopolite" "Afrique" "Asie" "Océanie"
Cluster 4 (n=1) :
"Europe"
Cluster 5 (n=1) :
"Amérique"
Cluster 6 (n=1) :
"Amérique/Asie"
Explicated inertia : 87.115247
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=1)
!
!----3- [Temp_min <= 16.250000]
!
!
!
!
+---- Classe 4 (Ng=1)
!
!
!
!
!----5- [dGh_min <= 2.750000]
!
!
!
+---- Classe 6 (Nd=1)
!
!----1- [Temp_min <= 18.750000]
!
!
+---- Classe 2 (Ng=2)
!
!
!----2- [dGh_min <= 3.250000]
!
!
+---- Classe 3 (Ng=4)
!
!
!----4- [dGh_min <= 4.250000]
!
+---- Classe 5 (Nd=1)
Projet de Datamining
25
Antonio Rodrigues (DESS SITN)
On remarque immédiatement que la majorité des concepts (7 sur les 10) disposent de
plantes dont la température minimum est supérieure à 18.750°.
Parmi les 7 concepts qui ont une température minimum supérieure à 18.75°, 5 ont un dGh
minimum supérieur à 3.25. Cependant après 4.25 pour le dGh min, seul 1 concept demeure.
D’après la définition du DGh, on constate donc qu’il y a une grande partie des concepts
(continents) qui nécessitent une eau plus dure après une certaine température. C’est le cas
pour les concepts "Cosmopolite", "Afrique", "Asie" et "Océanie" et encore plus pour le
concept "Amérique".
III.4.4. TREE
III.4.4.a. Présentation
L’arbre de décision propose un algorithme d’arbre évolutif appliqué aux données
explicitement imprécises. Celles-ci sont formellement décrites par des assertions
probabilistes dans l’analyse des données symboliques. Dans ce contexte, la procédure de
partage récursif peut être interprétée comme une recherche itérative d’un ensemble d’objets
symboliques qui correspond le mieux aux données initiales.
A chaque étape, le meilleur partage est obtenu à travers l’utilisation d’une mesure donnée en
paramètre. On obtient une nouvelle liste d’objets symboliques qui permet d’assigner de
nouveaux objets à une classe.
III.4.4.b. Application
Les paramètres choisis sont les suivants :
-
Variable class Identifier : Continents (sous le nom de Continents2 dans la base)
Predictor variables : phMin
Number of terminal nodes : 6
Résultat :
==================================
| EDITION OF DECISION TREE
|
==================================
PARAMETERS :
Learning Set
:
10
Number of variables :
1
Max. number of nodes:
7
Soft Assign
: ( 1 ) FUZZY
Criterion coding
: ( 3 ) LOG-LIKELIHOOD
Min. number of object by node
:
5
Min. size of no-majority classes :
2
Min. size of descendant nodes
:
1.00
Frequency of test set
:
0.00
Projet de Datamining
26
Antonio Rodrigues (DESS SITN)
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
+---- [ 2 ]Amérique/Europe/Asie (
0.00
0.00
0.60 0.00
!
1.00
0.27
0.00
0.33
1.00
0.00 )
!
!----1[ Temp_min <= 18.000000]
!
!
+---- [ 12 ]Amérique/Europe/Afrique (
0.16
0.22
!
!
0.40
1.00
0.00
0.21
0.50
0.29
!
!
0.00
0.50 )
!
!
!
!----6[ Temp_min <= 20.000000]
!
!
!
!
!
+---- [ 13 ]Asie/Afrique (
0.41
0.44
0.00
!
!
0.00
0.00
0.25
0.50
0.23
0.00
!
!
0.50 )
!
!
!----3[ Temp_min <= 22.000000]
!
+---- [ 7 ]Afrique (
0.43
0.33
0.00
0.00
0.00
0.26
0.00
0.15
0.00
0.00 )
Comment utiliser l’arbre ?
 Si la réponse à la question binaire [Temp_min <= 18.000000] est vraie, alors l’objet sera
considéré, a piori, comme faisant parti de la classe [2]. Sinon il faudra statuer sur la question
binaire [Temp_min <= 22.000000] et ainsi de suite
III.4.5. PCM
III.4.5.a. Présentation
PCM (Principal Component Analysis) est une extension de la méthode d’analyse en
composante principale qui prend comme en paramètre une matrice de termes ganéraux aij.
Chaque valeur aij est un intervalle contenant toutes les valeurs possibles de j pour un objet i.
Au lieu de représenter chaque point sur un plan factoriel par un point comme dans la
méthode ACP, dans la méthode PCM, chaque objet est visualisé par un rectangle.
III.4.5.b. Application
Voici les résultats obtenus en prenant la température min comme paramètre :
Projet de Datamining
27
Antonio Rodrigues (DESS SITN)
Projet de Datamining
28
Antonio Rodrigues (DESS SITN)
IV. Conclusion
L’enseignement de datamining permet de comprendre à la fois les enjeux de l’analyse de
données et concrètement certaines grandes méthodes d’analyse. En utilisant le logiciel
SODAS, on se rend compte de l’importance de l’appui logiciel en datamining, notamment
lors du traitement de milliers (voire millions) de données. On comprend alors, en réalisant
des projets de la sorte ou en étudiant des exemples concrets, pourquoi les entreprises
investissent parfois énormément dans l’étude de leurs données commerciales et techniques
: On peut extraire des indicateurs importants, découvrir des corrélations inattendues, ne pas
constater des corrélations attendues, classifier, etc.… Et ceci dans le but d’accroître la
productivité ou les ventes.
Dans le cas de ce projet, bien que la base sur les plantes soit relativement petite, il a déjà
été possible de constater certaines corrélations et autres phénomènes intéressants, alors
qu’initialement, rien ne les laissait apparaître ! On peut alors imaginer la quantité
d’information que l’on peut extraire de bases très denses ! Le problème peut alors être de
trier les bonnes informations…
Projet de Datamining
29
Antonio Rodrigues (DESS SITN)
V. BIBLIOGRAPHIE
 http://r.mourreal.free.fr/basedonnee.html
 http://www.rd.francetelecom.com/fr/technologies/ddm200312/techfiche3.php
 http://solutions.journaldunet.com/0208/020827_bi_panorama3.shtml
 http://www.softcomputing.com/documents/pdf_generaux/datamining.pdf
 http://perso.wanadoo.fr/aqua-david/articles/Leau.htm
 http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm
 Cours de datamining 2003-2004 (Pole info 3 – Paris IX) de E. Diday
Projet de Datamining
30
Téléchargement