Telechargé par aghbal hamza

Le dataminingP1

publicité
Le data mining
Partie 1
Pr Aicha MAJDA
MIAGE
2021-2022
12/10/2021
C’est quoi le data mining?
Processus inductif, itératif et interactif, de découverte, dans des bases de
données massives, de modèles de données valides, nouveaux,
compréhensibles et utiles.
 Inductif : passer des données exemples à une loi générale
 Itératif : nécessite plusieurs passes
 Interactif : l’utilisateur est dans la boucle du processus
 Valides : valables dans le futur
 Nouveaux : non prévisibles
 Compréhensibles : présentation simple
 Utiles : permettent à l’utilisateur de prendre des décisions
12/10/2021
C’est quoi le data mining?
 Exemple quel est le prochain directeur?
Selon les exemples enregistrés dans les base de données :
1. Le directeur est toujours l’un des employés de l’entreprise
2. 60% le directeur est un homme
3. 80% le directeur a une ancienneté de plus de 10 ans;
Dans la table employé nous avons :
idEmployé
Nom
Prénom
Sexe
Date d’embauche
256
Moussaoui
Imane
F
2003/02/13
5412
Alami
Ahmed
H
2013/10/05
12/10/2021
C’est quoi le data mining?
 Exemple quel est le prochain directeur?
Comme on peut l’en déduire, on utilise des informations
issues de différentes sources de données : les employés et les
anciens directeurs
BDD : Gestion des ressources
humaines
Entrepôt de données
12/10/2021
Processus de découverte des connaissances
Data mining est le cœur de la KDD (Knowledge Data Discovery)
12/10/2021
La business intelligence
BI vs KDD
Avant l’étape de data mining …
 Premières étapes du
processus de la
Business intelligence
 Les données
 La technologie ETL
 Le data warehouse
12/10/2021
La business intelligence BI
 Appelée : ( Informatique
décisionnelle
) est
un
processus
technologique
d'analyse des données et
de
présentation
d'informations pour aider les
dirigeants, managers et
autres utilisateurs finaux de
l'entreprise à prendre des
décisions business éclairées.
12/10/2021
Pourquoi la BI?
 Données opérationnelles (de production)
 Bases de données (MySql, Access, Oracle, SQL
Server…)
 Fichiers, …
 CRM, gestion des RH, gestion des commandes…
 Caractéristiques de ces données:
 Distribuées: systèmes éparpillés
 Hétérogènes: systèmes et structures de données
différents
 Détaillées: organisation des données selon les
processus fonctionnels, données surabondantes pour
l’analyse
 Peu/pas adaptées à l’analyse : les requêtes lourdes
peuvent bloquer le système transactionnel
 Volatiles: pas d’historisation systématique
12/10/2021
Pourquoi la BI?
 Comment répondre aux demandes des
décideurs ?
 En donnant un accès rapide
l’information stratégique
 En donnant du sens aux données
et
simple
à
• Mettre en place un système d’information
dédié aux applications décisionnelles :
un data warehouse
12/10/2021
Domaines d’utilisation de la BI
 Finance : mesure des coûts, mesure des risques, suivi du chiffre
d'affaires, …
 Marketing : segmentation des clients et analyse
comportementales, …
 Ressources Humaines : optimisation de l’allocation des
ressources,…
 Commercial : analyse des points de vente, analyse de la
profitabilité ...
 Logistique : optimisation des stocks, Suivi des livraison,…
12/10/2021
Etapes de processus de la BI
 La phase de collection des données
 La phase de stockage des données
 La phase de distribution des données
 La phase d’exploitation des données
12/10/2021
L’outil ETL
 Le terme ETL ( Extract, Transform, Load ) désigne une
séquence d’opérations portant sur les données : collecte à
partir d’un nombre illimité de sources, structuration,
centralisation dans un référentiel unique.
 C’est un processus qui consiste à rendre les données
disponibles en les collectant auprès de sources multiples et en
les soumettant à des opérations de nettoyage, de
transformation et, au final, d’analytique métier.
12/10/2021
Le data warehouse
 Ou entrepôt de données est une base de données
relationnelle pensée et conçue pour les requêtes et les
activités de type Business Intelligence : les analyses de
données et la prise de décision.
 C’est une base de données permettant de stocker des
données orientées sujet, integrées, non volatiles et ,historisées
pour la prise de décision, W. H. Inmon (1996)
Les 4 caractéristiques d’un data warehouse
12/10/2021
Les 4 caractéristiques d’un DW
1. Données orientées sujet
 Regroupe les informations des différents métiers
 Ne tiens pas compte de l’organisation fonctionnelle des données
Ass. Vie
Ass. Auto
Ass. Santé
Client
Personnel
12/10/2021
Les 4 caractéristiques d’un DW
2. Données intégrées
 Normalisation des données
 Définition d’un référentiel unique
h,f
1,0
h,f
homme, femme
GBP
FRF
USD
EUR
Les 4 caractéristiques d’un DW
3. Données non volatiles
 Traçabilité des informations et des décisions prises
 Copie des données de production
Bases de production
Entrepôts de données
Ajout
Suppression
Accès
Modification
Chargement
Les 4 caractéristiques d’un DW
4. Données historisées
 Les données persistent dans le temps
 Mise en place d’un référentiel temps, les données sont datées
Image de la base en Mai 2005
Base de
production
Entrepôt
de
données
Image de la base en Juillet 2006
Répertoire
Répertoire
Nom
Ville
Nom
Ville
Samir
Fès
Samir
Casa
Ali
Rabat
Ali
Rabat
Calendrier
Code Année
Répertoire
Mois
Code Année
Ville
Mois
1
2005
Mai
1
Samir
Fès
2
2006
Juillet
1
Ali
Rabat
2
Samir
Casa
SGBD Vs DW
OLTP: On-Line
Transactional
Processing
OLAP: On-Line
Analytical
Processing
Service
commercial
BD prod
Service
Financier
BD prod
Data Warehouse
Service
livraison
BD prod
H
I
S
T
O
R
I
Q
U
E
12/10/2021
Exemple de Fichier généré d’un DW
Généralement les données à analyser sont exporté du DW
sous forme de fichiers plats : csv, arff,…
L’objectif principal de Data Mining est de créer un processus
automatique qui a comme point de départ les données et
comme finalité l’aide à la prise des décisions.
12/10/2021
Processus principal du data mining
1. Prétraitement des données
2. Classification
3. Regroupement (clustering)
Prise de décision
4. Visualisation
Data
Mining
12/10/2021
Les données
Niveau de
structuration
Modèle de
données
Exemples
Facilité de
traitement
Structuré
Système de
données
relationnel
objet/colonne
Base de
données
d'entreprise
Facile (indexé)
Semi-structuré
XML, JSON, CSV, Web, API
arff,…
Google, API
Twitter, ...
Facile (non
indexé)
Non structuré
Texte, image,
vidéo
Complexe
Web, e-mails,
documents...
12/10/2021
Attribute-Relation File Format (*.ARFF)
 Fichier utilisé par Weka (application d’apprentissage
automatique)
 Il est subdivisé en deux parties :
 la première correspond au dictionnaire de données (Entête avec une liste de types (numérique, chaîne nominale,
date)
 la seconde correspond aux valeurs (données)
12/10/2021
Attribute-Relation File Format (*.ARFF)
% description (optionnel)
@Relation name
@attribute a1 type
@attribute a2 type
…
@data
The values…
% Décrit les caractéristiques de base
% d’une personne
@Relation personne
@attribute sexe {homme, femme}
@attribute prenom string
@attribute annee numeric
@data
femme, imane, 1966
homme, Ali, 1970
femme, Aicha, 1977
homme, Rachid, 1978
homme, Ahmed, 1967
femme, Sofia, 1980
https://www.cs.waikato.ac.nz/ml/weka/arff.html
12/10/2021
Attribute-Relation File Format (*.ARFF)
% Décrit les données
@Relation personne
@attribute sexe {homme, femme}
@attribute prenom string
@attribute annee numeric
@data
femme, imane, 1966
homme, Ali, 1970
femme, Aicha, 1977
homme, Rachid, 1978
homme, Ahmed, 1967
femme, Sofia, 1980
NB. Pour écrire la date complète : @attribute dateN date "yyyy-MM-dd"
12/10/2021
Comma Separated Values (*.csv)
 Fichier de base des données recueillies
 Sans formatage particulier (Pas de type pour les valeurs)
 Chaque champ est séparé par une virgule.
 Format universel permettant de voir les données dans une variété
d'applications, comme Microsoft Excel, Weka, le tableur Google, ...
a1,a2,a3,…
v1,v2,v3,…
v1,v2,v3,…
v1,v2,v3,…
v1,v2,v3,…
12/10/2021
Comma Separated Values (*.csv)
 Fichier CSV à partir d’une base de données MySql
12/10/2021
Le logiciel de datamining Weka
 Logiciel de dataminig (Fouille des données)avec le Machine Learning
 Prétraitement
 Classification et clustering des données
 Visualisation
 Comparaison des algorithmes
 Etc.
12/10/2021
Installation du logiciel Weka
12/10/2021
Installation du logiciel Weka
12/10/2021
Installation du logiciel Weka
12/10/2021
Application
12/10/2021
Application
 Soit la bdd qui collecte les opinions sur des films.
 Créer un fichier arff à partir de la table Film
 Remplacer le champ commentaire par opinion (positif , negatif)
 Ouvrir le fichier créé sur weka et verifier s’il est bien au format arff
 Mêmes étapes pour un fichier csv.
12/10/2021
Téléchargement