Le data mining Partie 1 Pr Aicha MAJDA MIAGE 2021-2022 12/10/2021 C’est quoi le data mining? Processus inductif, itératif et interactif, de découverte, dans des bases de données massives, de modèles de données valides, nouveaux, compréhensibles et utiles. Inductif : passer des données exemples à une loi générale Itératif : nécessite plusieurs passes Interactif : l’utilisateur est dans la boucle du processus Valides : valables dans le futur Nouveaux : non prévisibles Compréhensibles : présentation simple Utiles : permettent à l’utilisateur de prendre des décisions 12/10/2021 C’est quoi le data mining? Exemple quel est le prochain directeur? Selon les exemples enregistrés dans les base de données : 1. Le directeur est toujours l’un des employés de l’entreprise 2. 60% le directeur est un homme 3. 80% le directeur a une ancienneté de plus de 10 ans; Dans la table employé nous avons : idEmployé Nom Prénom Sexe Date d’embauche 256 Moussaoui Imane F 2003/02/13 5412 Alami Ahmed H 2013/10/05 12/10/2021 C’est quoi le data mining? Exemple quel est le prochain directeur? Comme on peut l’en déduire, on utilise des informations issues de différentes sources de données : les employés et les anciens directeurs BDD : Gestion des ressources humaines Entrepôt de données 12/10/2021 Processus de découverte des connaissances Data mining est le cœur de la KDD (Knowledge Data Discovery) 12/10/2021 La business intelligence BI vs KDD Avant l’étape de data mining … Premières étapes du processus de la Business intelligence Les données La technologie ETL Le data warehouse 12/10/2021 La business intelligence BI Appelée : ( Informatique décisionnelle ) est un processus technologique d'analyse des données et de présentation d'informations pour aider les dirigeants, managers et autres utilisateurs finaux de l'entreprise à prendre des décisions business éclairées. 12/10/2021 Pourquoi la BI? Données opérationnelles (de production) Bases de données (MySql, Access, Oracle, SQL Server…) Fichiers, … CRM, gestion des RH, gestion des commandes… Caractéristiques de ces données: Distribuées: systèmes éparpillés Hétérogènes: systèmes et structures de données différents Détaillées: organisation des données selon les processus fonctionnels, données surabondantes pour l’analyse Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnel Volatiles: pas d’historisation systématique 12/10/2021 Pourquoi la BI? Comment répondre aux demandes des décideurs ? En donnant un accès rapide l’information stratégique En donnant du sens aux données et simple à • Mettre en place un système d’information dédié aux applications décisionnelles : un data warehouse 12/10/2021 Domaines d’utilisation de la BI Finance : mesure des coûts, mesure des risques, suivi du chiffre d'affaires, … Marketing : segmentation des clients et analyse comportementales, … Ressources Humaines : optimisation de l’allocation des ressources,… Commercial : analyse des points de vente, analyse de la profitabilité ... Logistique : optimisation des stocks, Suivi des livraison,… 12/10/2021 Etapes de processus de la BI La phase de collection des données La phase de stockage des données La phase de distribution des données La phase d’exploitation des données 12/10/2021 L’outil ETL Le terme ETL ( Extract, Transform, Load ) désigne une séquence d’opérations portant sur les données : collecte à partir d’un nombre illimité de sources, structuration, centralisation dans un référentiel unique. C’est un processus qui consiste à rendre les données disponibles en les collectant auprès de sources multiples et en les soumettant à des opérations de nettoyage, de transformation et, au final, d’analytique métier. 12/10/2021 Le data warehouse Ou entrepôt de données est une base de données relationnelle pensée et conçue pour les requêtes et les activités de type Business Intelligence : les analyses de données et la prise de décision. C’est une base de données permettant de stocker des données orientées sujet, integrées, non volatiles et ,historisées pour la prise de décision, W. H. Inmon (1996) Les 4 caractéristiques d’un data warehouse 12/10/2021 Les 4 caractéristiques d’un DW 1. Données orientées sujet Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des données Ass. Vie Ass. Auto Ass. Santé Client Personnel 12/10/2021 Les 4 caractéristiques d’un DW 2. Données intégrées Normalisation des données Définition d’un référentiel unique h,f 1,0 h,f homme, femme GBP FRF USD EUR Les 4 caractéristiques d’un DW 3. Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production Bases de production Entrepôts de données Ajout Suppression Accès Modification Chargement Les 4 caractéristiques d’un DW 4. Données historisées Les données persistent dans le temps Mise en place d’un référentiel temps, les données sont datées Image de la base en Mai 2005 Base de production Entrepôt de données Image de la base en Juillet 2006 Répertoire Répertoire Nom Ville Nom Ville Samir Fès Samir Casa Ali Rabat Ali Rabat Calendrier Code Année Répertoire Mois Code Année Ville Mois 1 2005 Mai 1 Samir Fès 2 2006 Juillet 1 Ali Rabat 2 Samir Casa SGBD Vs DW OLTP: On-Line Transactional Processing OLAP: On-Line Analytical Processing Service commercial BD prod Service Financier BD prod Data Warehouse Service livraison BD prod H I S T O R I Q U E 12/10/2021 Exemple de Fichier généré d’un DW Généralement les données à analyser sont exporté du DW sous forme de fichiers plats : csv, arff,… L’objectif principal de Data Mining est de créer un processus automatique qui a comme point de départ les données et comme finalité l’aide à la prise des décisions. 12/10/2021 Processus principal du data mining 1. Prétraitement des données 2. Classification 3. Regroupement (clustering) Prise de décision 4. Visualisation Data Mining 12/10/2021 Les données Niveau de structuration Modèle de données Exemples Facilité de traitement Structuré Système de données relationnel objet/colonne Base de données d'entreprise Facile (indexé) Semi-structuré XML, JSON, CSV, Web, API arff,… Google, API Twitter, ... Facile (non indexé) Non structuré Texte, image, vidéo Complexe Web, e-mails, documents... 12/10/2021 Attribute-Relation File Format (*.ARFF) Fichier utilisé par Weka (application d’apprentissage automatique) Il est subdivisé en deux parties : la première correspond au dictionnaire de données (Entête avec une liste de types (numérique, chaîne nominale, date) la seconde correspond aux valeurs (données) 12/10/2021 Attribute-Relation File Format (*.ARFF) % description (optionnel) @Relation name @attribute a1 type @attribute a2 type … @data The values… % Décrit les caractéristiques de base % d’une personne @Relation personne @attribute sexe {homme, femme} @attribute prenom string @attribute annee numeric @data femme, imane, 1966 homme, Ali, 1970 femme, Aicha, 1977 homme, Rachid, 1978 homme, Ahmed, 1967 femme, Sofia, 1980 https://www.cs.waikato.ac.nz/ml/weka/arff.html 12/10/2021 Attribute-Relation File Format (*.ARFF) % Décrit les données @Relation personne @attribute sexe {homme, femme} @attribute prenom string @attribute annee numeric @data femme, imane, 1966 homme, Ali, 1970 femme, Aicha, 1977 homme, Rachid, 1978 homme, Ahmed, 1967 femme, Sofia, 1980 NB. Pour écrire la date complète : @attribute dateN date "yyyy-MM-dd" 12/10/2021 Comma Separated Values (*.csv) Fichier de base des données recueillies Sans formatage particulier (Pas de type pour les valeurs) Chaque champ est séparé par une virgule. Format universel permettant de voir les données dans une variété d'applications, comme Microsoft Excel, Weka, le tableur Google, ... a1,a2,a3,… v1,v2,v3,… v1,v2,v3,… v1,v2,v3,… v1,v2,v3,… 12/10/2021 Comma Separated Values (*.csv) Fichier CSV à partir d’une base de données MySql 12/10/2021 Le logiciel de datamining Weka Logiciel de dataminig (Fouille des données)avec le Machine Learning Prétraitement Classification et clustering des données Visualisation Comparaison des algorithmes Etc. 12/10/2021 Installation du logiciel Weka 12/10/2021 Installation du logiciel Weka 12/10/2021 Installation du logiciel Weka 12/10/2021 Application 12/10/2021 Application Soit la bdd qui collecte les opinions sur des films. Créer un fichier arff à partir de la table Film Remplacer le champ commentaire par opinion (positif , negatif) Ouvrir le fichier créé sur weka et verifier s’il est bien au format arff Mêmes étapes pour un fichier csv. 12/10/2021