Antonio Rodrigues (DESS SITN)
Projet de Datamining :
Etude d’une base de données sur les plantes d’eau douce
Février 2004
A l’attention de Mr Diday
2
Antonio Rodrigues (DESS SITN)
Projet de Datamining
SOMMAIRE
I. INTRODUCTION 3
II. PRESENTATION GENERALE 4
II.1. LE DATAMINING 4
II.1.1. PRESENTATION 4
II.1.2. PRINCIPALES APPLICATIONS 4
II.1.3. ETAT DE LART DU MARCHE 5
II.2. LE LOGICIEL SODAS 7
II.2.1. PRESENTATION GENERALE 7
II.2.2. INTERFACE DU LOGICIEL 8
III. APPLICATION 10
III.1. CHOIX DE LA BASE DE DONNEE 10
III.2. DETAILS SUR LA BASE 10
III.2.1. LES INDIVIDUS, CONCEPTS ET VARIABLES 10
III.2.2. LES REQUETES 12
III.3. DB2SO 12
III.3.1. PRESENTATION 12
III.3.2. APPLICATION 13
III.4. APPLICATION DES METHODES 15
III.4.1. SOE 15
III.4.1.a. Présentation 15
III.4.1.b. Application 15
III.4.2. STAT 19
III.4.2.a. Présentation 19
III.4.2.b. Application 19
III.4.3. DIV 23
III.4.3.a. Présentation 23
III.4.3.b. Application 23
III.4.4. TREE 26
III.4.4.a. Présentation 26
III.4.4.b. Application 26
III.4.5. PCM 27
III.4.5.a. Présentation 27
III.4.5.b. Application 27
IV. CONCLUSION 29
V. BIBLIOGRAPHIE 30
3
Antonio Rodrigues (DESS SITN)
Projet de Datamining
I. Introduction
Si la rapidité de traitement de l’information, assuré par les technologies nouvelles, est un
critère essentiel pour une entreprise, la prise de décisions efficaces n’en est pas moins. En
effet, les entreprises étant en perpétuel concurrence, il devient nécessaire d’extraire et
d’analyser les bons indicateurs afin d’adopter les bonnes décisions.
Les entreprises s’intéressent de plus en plus au datamining, probablement à cause des
promesses de rentabilité immédiate que vantent les fournisseurs de technologies et dont les
médias se font l’écho. Une étude récente du cabinet IDC, spécialisé dans les études
quantitatives des marchés de technologies, souligne que plus de la moitié des entreprises
américaines ont ou vont acheter un outil de datamining. Les différentes études de marché
estiment que la taille du marché du datamining était d’environ 300 millions de francs (source
: Meta Group) et tablent sur 5 milliards en l’an 2000, soit un taux de croissance annuelle de
plus de 40 %.
S’appuyant souvent sur un entrepôt de données ou une simple base de données, le
datamining va permettre de guider le décideur grâce à des méthodes le plus souvent
éprouvées. Il est alors intéressant pour un étudiant achevant son cycle dans d’études dans
le domaine des nouvelles technologies, d’étudier cette science qu’il sera certainement
amener à côtoyer dans la vie active.
Bien que connaître les différentes méthodes d’analyse soit important, il est très intéressant
en terme de datamining de s’appuyer sur un logiciel apte à analyser les données
symboliques afin de gagner en terme de volumétrie et de vitesse de traitement. Ainsi ce
projet s’appuiera sur l’outil SODAS que nous détaillerons au préalable.
Ce rapport se divisera en deux grandes parties : Une présentation générale du datamining
ainsi que du logiciel SODAS et une application à un cas concret (une base de données
réaliste).
4
Antonio Rodrigues (DESS SITN)
Projet de Datamining
II. Présentation générale
II.1. Le datamining
II.1.1. Présentation
Ou exploration de données. C’est un ensemble de méthodes et de techniques qui permet
d'extraire des informations à partir d'une grande masse de données. Son utilisation permet
par exemple d'établir des corrélations entre ces données et de définir des comportements-
type de clients.
Ainsi Le datamining, ou prospection de données, est un ensemble de méthodes et de
techniques d'analyse dont les applications peuvent servir à mieux connaître les clients de
l'entreprise. Ce prolongement des statistiques, qui figure selon le Massachussets Institute of
Technology parmi les dix technologies qui vont changer le monde, sert à extraire des
informations d'une masse de données brutes atteignant souvent plusieurs térabits ! On peut
ainsi repérer des relations systématiques entre différentes variables, comme le fait d'acheter
des chips et de la bière le samedi matin et de regarder le match de football le samedi après-
midi. Les techniques associées au datamining s'appuient sur la théorie de l'information, sur
des méthodes statistiques et également sur celles de l'intelligence artificielle. Les données à
explorer sont stockées dans de gigantesques entrepôts nommés datawarehouse mais
peuvent aussi se trouver dans des infocentres plus traditionnels. Extraire des informations
pertinentes à partir du nombre colossal de combinaisons possibles de ces données requiert
une puissance d'analyse énorme que seuls de grands systèmes peuvent supporter.
II.1.2. Principales applications
Grande distribution et VPC : Analyse des comportements des consommateurs,
recherche des similarités des consommateurs en fonction de critères géographiques
ou sociodémographiques, prédiction des taux de réponse en marketing direct, vente
croisée et activation sélective dans le domaine des cartes de fidélité, optimisation des
réapprovisionnements.
Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de
médications ou de visites, optimisation des plans d’action des visiteurs médicaux
pour le lancement de nouvelles molécules, identification des meilleures thérapies
pour différentes maladies.
Banques : Recherche de formes d’utilisation de cartes caractéristiques d’une fraude,
modélisation prédictive des clients partants, détermination de pré autorisations de
crédit revolving, modèles d‘arbitrage automatique basés sur lanalyse de formes
historiques des cours.
Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche
des critères explicatifs du risque ou de la fraude, prévision dappels sur les plates-
formes d’assurance directe.
5
Antonio Rodrigues (DESS SITN)
Projet de Datamining
Aéronautique, automobile et industries : Contrôle qualité et anticipation des
défauts, prévisions des ventes, dépouillement d’enquêtes de satisfaction.
Transport et voyagistes : Optimisation des tournées, prédiction de carnets de
commande, marketing relationnel dans le cadre de programmes de fidélité.
Télécommunications, eau et énergie : Simulation de tarifs, tection de formes de
consommation.
II.1.3. Etat de l’art du marché
Intelligent Miner d’IBM
Volumes : Pas de limites
Liens aux données : DB2, fichiers
Méthodes de modélisation : Multiples
Intégration des résultats : API
Catégorie : Poids lourd
Utilisateurs : Experts
Clementine de SPSS
Volumes : Peu de limites
Liens aux données : SGBD et fichiers
Méthodes de modélisation : Multiples
Intégration : des résultats API
Catégorie : Intermédiaire intégré
Utilisateurs : Avertis
SAS Enterprise Miner SAS
Volumes : Peu de limites
Liens aux données : SAS, SGBD et
fichiers
Méthodes de modélisation : Multiples
Intégration des résultats : -
Catégorie : Poids lourd
Utilisateurs : Avertis
4Thought de Cognos
Volumes : Peu de limites
Liens aux données : SGBD
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats :
Programme Excel ou langage C
Catégorie : Intermédiaire spécialisé
Utilisateurs : Avertis
Predict de NeuralWare
Volumes : Quelques milliers
d'enregistrements
Liens aux données : SGBD
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats : Sans objet
Catégorie : PC de bureau
Utilisateurs : Néophytes
Previa de Elseware
Volumes : Quelques milliers de
records
Liens aux données : Fichiers
Méthodes de modélisation : Réseaux
de neurones
Intégration des résultats : -
Catégorie : PC de bureau
Utilisateurs : Néophytes
1 / 30 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !