Data Mining/Machine learning Introduction Jamal Atif [email protected] M2 ID Université Paris-Dauphine December 11, 2015 Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 1 / 42 Introduction Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 2 / 42 Introduction ADM, c’est quoi ? Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 3 / 42 Introduction ADM, c’est quoi ? Le Data Mining/Machine learning, qu’est-ce que c’est ? Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 4 / 42 Introduction ADM, c’est quoi ? Question de vocabulaire... (1) Attention : historiquement : plusieurs « points de départ » domaine récent dont le vocabulaire n’est pas fixé évolution rapide domaine applicatif versus domaine de recherche Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 5 / 42 Introduction ADM, c’est quoi ? Question de vocabulaire... (2) reconnaissance des formes (pattern recognition) fouille de données (data mining) intelligence artificielle analyse de données statistique apprentissage automatique (machine learning) ... ⇒ domaines différents avec des intersections plus ou moins grandes Data Sciences Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 6 / 42 Introduction ADM, c’est quoi ? Dans ce cours Définition Ensemble de techniques permettant l’extraction de connaissances sous la forme de mod�les � partir de grandes masses de données Ces mod�les peuvent �tre de nature descriptive : permettant d’expliquer le comportement actuel des données prédictive : comportement futur des données. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 7 / 42 Introduction L’ADM, pourquoi ? Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 8 / 42 Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Dans l’industrie Carte de crédit tous les achats sont enregistrés détection des fraudes/comportement � risque ciblage accord de pr�t ... Navigation Web historique de la navigation ciblage/marketing optimisation des sites / du traffic ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 9 / 42 Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Pour la science fMRI functional Magnetic Resonance Imaging variation de pression sanguine en réponse � des stimuli brain computer interface Big Science détecteur ATLAS du CERN 40M événements par secondes, 25Mo par événement 1Po de données générées par secondes � analyser m�me situation en biologie, astronomie, ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 10 / 42 Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Pour la société tous les textes et discussion du parlement européen sont disponibles... ...avec leur traduction/interprétation corpus parall�le : les phrases sont alignés utilisable pour apprendre : des dictionnaires des syst�mes de traduction automatique des mémoires de traduction ⊕ analyse « politique » des données Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 11 / 42 Introduction L’ADM, pourquoi ? Et encore Smart Cities Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les rails souhaitant suivre en temps réel l’état de son réseau... Analyse de qualité de partenariat : cadres, signature d’un contrat avec un prestataire, pour une qualité de service et de respect de normes nationales ou supra-nationales. =⇒ étude des publications, presse, dép�ches, tweets + information interne pour quantifier les cas de non respect ou de respect des engagements. Historique des passages de fronti�res, etc. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 12 / 42 Introduction L’ADM, pourquoi ? Pourquoi l’ADM ? Une grosse quantité de données qui n’est jamais analysée ⇒ mettre en place des mécanismes d’analyse automatique. Big Data Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 13 / 42 Introduction L’ADM, pourquoi ? ADM : composants de base Grande quantité de données + algorithmes efficaces Un domaine qui s’appuie sur : La disponibilité de grandes quantités de données Si ensemble trop petit, les structures peuvent ne résulter que du hasard. On peut espérer qu’un gros volume de données représente bien l’univers (échantillon). Des algorithmes s�rs et efficaces Algorithmes s�rs : fondés théoriquement, corrects. Efficaces en temps et en espace. Résultats interprétables. Param�tres ajustables facilement et rapidement. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 14 / 42 Types de données Exemples de données disponibles Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 15 / 42 Types de données Exemples de données disponibles Les données ? Les données peuvent �tre vues comme une collection d’objets (enregistrements) et leurs attributs. Un attribut est une propriété et ou une caractéristique de l’objet. Un ensemble d’attributs décrit un objet. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 16 / 42 Types de données Exemples de données disponibles Attribut - valeur La valeur d’un attribut est un nombre ou un symbole. Ne pas confondre attribut et valeur Types Quantitative (numérique, exprime une quantité) Discr�te (ex: nombre d’étudiants dans un cours) ou continue (ex: longueur) Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température, QI) Qualititative Variable ordinale (classement � un concours, échelle de satisfaction client) Variable nominale (couleur de yeux, dipl�me obtenu, CSP, sexe) Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données ex: les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont {bleu,vert,noir,...} Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 17 / 42 Types de données Exemples de données disponibles Exemple de données disponibles Transactions. Bases de données des entreprises. Téléphone portable. Satellites : espace et la terre. Données temporelles : cours de la bourse, météo. Génomique. Données du web. Données textuelles. ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 18 / 42 Types de données Types de connaissances extraites Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 19 / 42 Types de données Types de connaissances extraites Types de connaissances extraites Connaissances sous la forme de mod�les de permettant de décrire le comportement actuel des données et/ou prédire le comportement futur des données. Analyses e.g. distribution du trafic routier en fonction de l’heure R�gles e.g. si un client a acheté un produit alors il sera intéressé par un autre. Attribution de scores de qualité e.g. score de fidélité au client Classification d’entités e.g. mauvais payeurs. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 20 / 42 Familles d’approches Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 21 / 42 Familles d’approches Typologie des méthodes de fouilles de données Typologie selon l’objectif Classification : examiner les caractéristiques d’un objet et lui attribuer une classe. e.g. diagnostic ou décision d’attribution de pr�t � un client. Prédiction : prédire la valeur future d’un attribut en fonction d’autres attributs. e.g. prédire la qualité d’un client . Association : déterminer les attributs qui sont corrélés. e.g. analyse du panier de la ménag�re Segmentation : former des groupes homog�nes � l’intérieur d’une population. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 22 / 42 Familles d’approches Typologie des méthodes de fouilles de données Typologie selon le type de mod�le obtenu Mod�les prédictifs. Utilisent les données existantes et des résultats connus sur ces données pour développer des mod�les capables de prédire les valeurs d’autres données. e.g. Prédire les clients qui ne rembourseront pas leur crédit. Utilisés principalement en classification et prédiction. Mod�les descriptifs. Proposent des descriptions de données pour aider � la prise de décision. Souvent en amont de la construction de mod�les prédictifs. Utilisés principalement en segmentation et association. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 23 / 42 Familles d’approches Typologie des méthodes de fouilles de données Typologie selon le type d’apprentissage utilisé Apprentissage supervisé : fouille supervisée Processus qui prend en entrée des exemples d’apprentissage contenant � la fois des données d’entrée et de sortie. Les exemples d’apprentissage sont fournis avec leur classe. But: classer correctement un nouvel exemple. Utilisés principalement en classification et prédiction. Apprentissage non supervisé : fouille non supervisée Processus qui prend en entrée des exemples d’apprentissage contenant que des données d’entrée Pas de notion de classe But : regrouper les exemples en paquets (clusters) d’exemples similaires. Utilisés principalement en segmentation et association. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 24 / 42 Familles d’approches Dans ce cours, nous adoptons la typologie selon le type d’apprentissage utilisé. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 25 / 42 Familles d’approches Apprentissage supervisée Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 26 / 42 Familles d’approches Apprentissage supervisée Apprentissage supervisé Principe: étant donné un ensemble de données étiquetées S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux étiquettes : f∈F X ∋ x −→ y ∈ Y Y ≡ R: un probl�me de régression Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification F peut correspondre � un espace de fonctions linéaires ou non-linéaires Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 27 / 42 Familles d’approches Apprentissage supervisée Apprentissage supervisé Principe: étant donné un ensemble de données étiquetées S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux étiquettes : f∈F X ∋ x −→ y ∈ Y Y ≡ R: un probl�me de régression Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification F peut correspondre � un espace de fonctions linéaires ou non-linéaires Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 27 / 42 Familles d’approches Apprentissage supervisée Apprentissage supervisé Principe: étant donné un ensemble de données étiquetées S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux étiquettes : f∈F X ∋ x −→ y ∈ Y Y ≡ R: un probl�me de régression Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification F peut correspondre � un espace de fonctions linéaires ou non-linéaires Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 27 / 42 Familles d’approches Apprentissage supervisée Apprentissage supervisé Principe: étant donné un ensemble de données étiquetées S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux étiquettes : f∈F X ∋ x −→ y ∈ Y Y ≡ R: un probl�me de régression Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification F peut correspondre � un espace de fonctions linéaires ou non-linéaires Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 27 / 42 Familles d’approches Apprentissage supervisée Apprentissage supervisé Principe: étant donné un ensemble de données étiquetées S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux étiquettes : f∈F X ∋ x −→ y ∈ Y Y ≡ R: un probl�me de régression Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification F peut correspondre � un espace de fonctions linéaires ou non-linéaires Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 27 / 42 Familles d’approches Apprentissage supervisée Apprentissage supervisé Classification Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ particulier � valeurs discr�tes). Etant donnée une collection d’enregistrements (ensemble d’apprentissage). Chaque enregistrement contient un ensemble d’attributs et un de ces attributs est sa classe. Trouver un mod�le pour l’attribut classe comme une fonction de la valeurs des autres attributs But : permettre d’assigner une classe � des enregistrements inconnus de mani�re aussi précise que possible. Un ensemble de test est utilisé pour déterminer la précision du mod�le. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 28 / 42 Familles d’approches Apprentissage supervisée Classification : exemple Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 29 / 42 Familles d’approches Apprentissage supervisée Classification : exemples d’applications Marketing direct But : réduire le co�t du mailing en ciblant un ensemble de consommateurs qui ach�teront vraisemblablement un nouveau téléphone portable. Approche : Utiliser des données pour un produit similaire. On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est l’attribut classe. Collecter diverses informations sur ce type de consommateurs. Cette information représente les entrées du classifier. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 30 / 42 Familles d’approches Apprentissage supervisée Classification : exemples d’applications Détection de fraudes � la carte bancaire � l’aide des transactions et d’informations sur le porteur du compte. Détection de désabonnement � l’aide des données sur d’autres consommateurs présents ou passés. Catalogage du ciel : classification des objets du ciel � l’aide d’images. Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 31 / 42 Familles d’approches Apprentissage non-supervisé Plan 1 Introduction L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ? 2 Types de données exploitées et de connaissances extraites Exemples de données disponibles exploitées Types de connaissances extraites 3 Familles d’approches Apprentissage supervisé Apprentissage non-supervisé Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 32 / 42 Familles d’approches Apprentissage non-supervisé Apprentissage non-supervisé Principe Etant donné un ensemble non étiqueté S = {xi , i = 1 . . . N} : modélisation de X Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 33 / 42 Familles d’approches Apprentissage non-supervisé Figures de l’apprentissage non-supervisé Partitionnement / clustering Former des groupes homog�nes � l’intérieur d’une population méthodes hiérarchiques méthodes agglomératives méthodes spectrales méthodes probabilistes Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 34 / 42 Familles d’approches Apprentissage non-supervisé Figures de l’apprentissage non-supervisé Estimation de densité Méthodes paramétriques Méthodes non paramétriques F PDF Contour 4 3 2 1 0 -1 -2 -2 Jamal Atif (Université Paris-Dauphine) -1 0 1 DM-ML 2 3 4 December 11, 2015 34 / 42 Familles d’approches Apprentissage non-supervisé Figures de l’apprentissage non-supervisé Sélection / recodage de variables réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc) identification des variables pertinentes −5 0 5 Mississippi 0.3 North Carolina 5 0.2 South Carolina West Virginia Vermont Georgia Alabama Alaska Arkansas Kentucky Louisiana Tennessee South Dakota 0.1 Murder North Dakota Montana Maryland 0.0 Idaho Virginia New Mexico Florida Michigan Missouri Rape Indiana Nebraska OklahomaKansas Delaware New Hampshire Iowa Texas Oregon −0.1 Maine Wyoming 0 Comp.2 Assault Illinois Arizona New York Nevada Colorado Pennsylvania Wisconsin Minnesota Ohio Washington −0.2 Connecticut −5 New Jersey Utah Massachusetts Rhode Island Hawaii California UrbanPop −0.2 −0.1 0.0 0.1 0.2 0.3 Comp.1 Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 34 / 42 Familles d’approches Apprentissage non-supervisé Figures de l’apprentissage non-supervisé Analyse des corrélations numériques: étude des corrélations, de l’information mutuelle: A et B sont liés symbolique: extraction de r�gles d’association: A → B Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 34 / 42 Familles d’approches Apprentissage non-supervisé Figures de l’apprentissage non-supervisé Visualisation et exploration des données projections optimales dans Rp , p petit constructions de hiérarchies extraction des exemples / dimensions typiques Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 34 / 42 Familles d’approches Apprentissage non-supervisé Figures de l’apprentissage non-supervisé Combinaisons estimation paramétrique + partitionnement réduction dimension + partitionnement réduction dimension + visualisation ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 34 / 42 Familles d’approches Apprentissage non-supervisé Partitionnement : exemples d’applications Segmentation de marchés . Segmentation de documents. ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 35 / 42 Familles d’approches Apprentissage non-supervisé Association : exemples d’applications Entrée : Un ensemble de tickets de caisse Une observation = un caddie, un ticket de caisse. Non prise en compte de la fréquence des produits. Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de l’ensemble de produits). Sortie : Des r�gles Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 36 / 42 Familles d’approches Apprentissage non-supervisé Association : exemples d’application Marketing et promotions sur des produits. Gestion du supermarchés : rayonnage. Inventaire. ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 37 / 42 Familles d’approches Apprentissage non-supervisé Organisation de la session Partie 1 : Approches non-supervisées 1 2 Introduction générale Réduction de dimensionalité Analyse par Composantes Principales Décomposition en Valeurs Singuli�res : application � l’analyse sémantique latente et � la recommandation 3 Partitionnement/Clustering Algorithme K-Moyennes Clustering hiérarchique 4 5 R�gles d’association Travaux Pratiques sous R : Text Mining Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 38 / 42 Familles d’approches Apprentissage non-supervisé Organisation de la session Partie 2 : Approches supervisées Mod�les statistiques, estimation Mod�les linéaires, prédictions, sélections de variables, LASSO Régression logistique, classification et évaluation du risque Quelques méthodes non-paramétriques Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 39 / 42 Familles d’approches Apprentissage non-supervisé Résumé connaissances masse de données (corpus) Jamal Atif (Université Paris-Dauphine) informations prédictions DM-ML December 11, 2015 40 / 42 Familles d’approches Apprentissage non-supervisé Logiciels d’ADM Logiciels commerciaux Suites logicielles SAS (http://www.sas.com/offices/europe/france/) SPSS d’IBM (http://www-01.ibm.com/software/fr/analytics/spss/) Solution Analytics de SAP (http://www.sap.com/pc/analytics/strategy.html), KXEN ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 41 / 42 Familles d’approches Apprentissage non-supervisé Logiciels de data mining Logiciels gratuits Weka : http://www.cs.waikato.ac.nz/ml/weka/ Ensemble de classes et d’algorithmes JAVA developpés par l’Université de Waikato en Nouvelle Zelande. Principaux algorithmes de data mining. Utilisable en ligne de commande, � l’aide d’une interface utilisateur, par l’API. ScikitLearn ... Jamal Atif (Université Paris-Dauphine) DM-ML December 11, 2015 42 / 42