Data Mining/Machine learning

Data Mining/Machine learning
Introduction
Jamal Atif
[email protected]
M2 ID
Université Paris-Dauphine
December 11, 2015
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
1 / 42
Introduction
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
2 / 42
Introduction
ADM, c’est quoi ?
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
3 / 42
Introduction
ADM, c’est quoi ?
Le Data Mining/Machine
learning, qu’est-ce que c’est ?
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
4 / 42
Introduction
ADM, c’est quoi ?
Question de vocabulaire... (1)
Attention :
historiquement : plusieurs «
points de départ »
domaine récent dont le
vocabulaire n’est pas fixé
évolution rapide
domaine applicatif versus domaine
de recherche
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
5 / 42
Introduction
ADM, c’est quoi ?
Question de vocabulaire... (2)
reconnaissance des formes (pattern
recognition)
fouille de données (data mining)
intelligence artificielle
analyse de données
statistique
apprentissage automatique (machine
learning)
...
⇒ domaines différents avec des intersections plus ou moins grandes
Data Sciences
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
6 / 42
Introduction
ADM, c’est quoi ?
Dans ce cours
Définition
Ensemble de techniques permettant l’extraction de connaissances sous la
forme de mod�les � partir de grandes masses de données
Ces mod�les peuvent �tre de nature
descriptive : permettant d’expliquer le comportement actuel des données
prédictive : comportement futur des données.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
7 / 42
Introduction
L’ADM, pourquoi ?
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
8 / 42
Introduction
L’ADM, pourquoi ?
Pourquoi l’ADM ?
Dans l’industrie
Carte de crédit
tous les achats sont enregistrés
détection des fraudes/comportement �
risque
ciblage
accord de pr�t
...
Navigation Web
historique de la navigation
ciblage/marketing
optimisation des sites / du traffic
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
9 / 42
Introduction
L’ADM, pourquoi ?
Pourquoi l’ADM ?
Pour la science
fMRI
functional Magnetic Resonance Imaging
variation de pression sanguine en réponse � des
stimuli
brain computer interface
Big Science
détecteur ATLAS du CERN
40M événements par secondes, 25Mo par
événement
1Po de données générées par secondes � analyser
m�me situation en biologie, astronomie, ...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
10 / 42
Introduction
L’ADM, pourquoi ?
Pourquoi l’ADM ?
Pour la société
tous les textes et discussion du
parlement européen sont
disponibles...
...avec leur
traduction/interprétation
corpus parall�le : les phrases sont
alignés
utilisable pour apprendre :
des dictionnaires
des syst�mes de traduction
automatique
des mémoires de traduction
⊕ analyse « politique » des
données
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
11 / 42
Introduction
L’ADM, pourquoi ?
Et encore
Smart Cities
Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les
rails souhaitant suivre en temps réel l’état de son réseau...
Analyse de qualité de partenariat : cadres, signature d’un contrat avec un
prestataire, pour une qualité de service et de respect de normes nationales
ou supra-nationales. =⇒ étude des publications, presse, dép�ches, tweets
+ information interne pour quantifier les cas de non respect ou de respect
des engagements.
Historique des passages de fronti�res, etc.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
12 / 42
Introduction
L’ADM, pourquoi ?
Pourquoi l’ADM ?
Une grosse quantité de données qui n’est jamais analysée
⇒ mettre en place des mécanismes d’analyse automatique.
Big Data
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
13 / 42
Introduction
L’ADM, pourquoi ?
ADM : composants de base
Grande quantité de données + algorithmes efficaces
Un domaine qui s’appuie sur :
La disponibilité de grandes quantités de données
Si ensemble trop petit, les structures peuvent ne résulter que du hasard.
On peut espérer qu’un gros volume de données représente bien l’univers
(échantillon).
Des algorithmes s�rs et efficaces
Algorithmes s�rs : fondés théoriquement, corrects.
Efficaces en temps et en espace.
Résultats interprétables.
Param�tres ajustables facilement et rapidement.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
14 / 42
Types de données
Exemples de données disponibles
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
15 / 42
Types de données
Exemples de données disponibles
Les données ?
Les données peuvent �tre vues comme une collection d’objets (enregistrements)
et leurs attributs.
Un attribut est une propriété et ou une caractéristique de l’objet.
Un ensemble d’attributs décrit un objet.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
16 / 42
Types de données
Exemples de données disponibles
Attribut - valeur
La valeur d’un attribut est un nombre ou un symbole.
Ne pas confondre attribut et valeur
Types
Quantitative (numérique, exprime une quantité)
Discr�te (ex: nombre d’étudiants dans un cours) ou continue (ex: longueur)
Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle
(température, QI)
Qualititative
Variable ordinale (classement � un concours, échelle de satisfaction client)
Variable nominale (couleur de yeux, dipl�me obtenu, CSP, sexe)
Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données
ex: les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont
{bleu,vert,noir,...}
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
17 / 42
Types de données
Exemples de données disponibles
Exemple de données disponibles
Transactions.
Bases de données des entreprises.
Téléphone portable.
Satellites : espace et la terre.
Données temporelles : cours de la bourse, météo.
Génomique.
Données du web.
Données textuelles.
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
18 / 42
Types de données
Types de connaissances extraites
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
19 / 42
Types de données
Types de connaissances extraites
Types de connaissances extraites
Connaissances sous la forme de mod�les de permettant de
décrire le comportement actuel des données et/ou
prédire le comportement futur des données.
Analyses
e.g. distribution du trafic routier en fonction de l’heure
R�gles
e.g. si un client a acheté un produit alors il sera intéressé par un autre.
Attribution de scores de qualité
e.g. score de fidélité au client
Classification d’entités
e.g. mauvais payeurs.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
20 / 42
Familles d’approches
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
21 / 42
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon l’objectif
Classification : examiner les caractéristiques d’un objet et lui attribuer
une classe.
e.g. diagnostic ou décision d’attribution de pr�t � un client.
Prédiction : prédire la valeur future d’un attribut en fonction d’autres
attributs.
e.g. prédire la qualité d’un client .
Association : déterminer les attributs qui sont corrélés.
e.g. analyse du panier de la ménag�re
Segmentation : former des groupes homog�nes � l’intérieur d’une
population.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
22 / 42
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon le type de mod�le obtenu
Mod�les prédictifs.
Utilisent les données existantes et des résultats connus sur ces données pour
développer des mod�les capables de prédire les valeurs d’autres données.
e.g. Prédire les clients qui ne rembourseront pas leur crédit.
Utilisés principalement en classification et prédiction.
Mod�les descriptifs.
Proposent des descriptions de données pour aider � la prise de décision.
Souvent en amont de la construction de mod�les prédictifs.
Utilisés principalement en segmentation et association.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
23 / 42
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon le type d’apprentissage utilisé
Apprentissage supervisé : fouille supervisée
Processus qui prend en entrée des exemples d’apprentissage contenant � la
fois des données d’entrée et de sortie.
Les exemples d’apprentissage sont fournis avec leur classe.
But: classer correctement un nouvel exemple.
Utilisés principalement en classification et prédiction.
Apprentissage non supervisé : fouille non supervisée
Processus qui prend en entrée des exemples d’apprentissage contenant que
des données d’entrée
Pas de notion de classe
But : regrouper les exemples en paquets (clusters) d’exemples similaires.
Utilisés principalement en segmentation et association.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
24 / 42
Familles d’approches
Dans ce cours, nous adoptons la typologie selon le type d’apprentissage utilisé.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
25 / 42
Familles d’approches
Apprentissage supervisée
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
26 / 42
Familles d’approches
Apprentissage supervisée
Apprentissage supervisé
Principe: étant donné un ensemble de données étiquetées
S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f∈F
X ∋ x −→ y ∈ Y
Y ≡ R: un probl�me de régression
Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification
F peut correspondre � un espace de fonctions linéaires ou non-linéaires
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
27 / 42
Familles d’approches
Apprentissage supervisée
Apprentissage supervisé
Principe: étant donné un ensemble de données étiquetées
S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f∈F
X ∋ x −→ y ∈ Y
Y ≡ R: un probl�me de régression
Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification
F peut correspondre � un espace de fonctions linéaires ou non-linéaires
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
27 / 42
Familles d’approches
Apprentissage supervisée
Apprentissage supervisé
Principe: étant donné un ensemble de données étiquetées
S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f∈F
X ∋ x −→ y ∈ Y
Y ≡ R: un probl�me de régression
Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification
F peut correspondre � un espace de fonctions linéaires ou non-linéaires
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
27 / 42
Familles d’approches
Apprentissage supervisée
Apprentissage supervisé
Principe: étant donné un ensemble de données étiquetées
S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f∈F
X ∋ x −→ y ∈ Y
Y ≡ R: un probl�me de régression
Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification
F peut correspondre � un espace de fonctions linéaires ou non-linéaires
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
27 / 42
Familles d’approches
Apprentissage supervisée
Apprentissage supervisé
Principe: étant donné un ensemble de données étiquetées
S = {⟨xi , yi ⟩, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f∈F
X ∋ x −→ y ∈ Y
Y ≡ R: un probl�me de régression
Y ≡ discrete set (e.g. {0, 1}): un probl�me de classification
F peut correspondre � un espace de fonctions linéaires ou non-linéaires
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
27 / 42
Familles d’approches
Apprentissage supervisée
Apprentissage supervisé
Classification
Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ
particulier � valeurs discr�tes).
Etant donnée une collection d’enregistrements (ensemble
d’apprentissage).
Chaque enregistrement contient un ensemble d’attributs et un de ces
attributs est sa classe.
Trouver un mod�le pour l’attribut classe comme une fonction de la valeurs
des autres attributs
But : permettre d’assigner une classe � des enregistrements inconnus de
mani�re aussi précise que possible.
Un ensemble de test est utilisé pour déterminer la précision du mod�le.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
28 / 42
Familles d’approches
Apprentissage supervisée
Classification : exemple
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
29 / 42
Familles d’approches
Apprentissage supervisée
Classification : exemples d’applications
Marketing direct
But : réduire le co�t du mailing en ciblant un ensemble de consommateurs
qui ach�teront vraisemblablement un nouveau téléphone portable.
Approche :
Utiliser des données pour un produit similaire.
On sait quels consommateurs ont acheté. La décision (Achat - Pas achat)
est l’attribut classe.
Collecter diverses informations sur ce type de consommateurs.
Cette information représente les entrées du classifier.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
30 / 42
Familles d’approches
Apprentissage supervisée
Classification : exemples d’applications
Détection de fraudes � la carte bancaire � l’aide des transactions et
d’informations sur le porteur du compte.
Détection de désabonnement � l’aide des données sur d’autres
consommateurs présents ou passés.
Catalogage du ciel : classification des objets du ciel � l’aide d’images.
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
31 / 42
Familles d’approches
Apprentissage non-supervisé
Plan
1
Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
32 / 42
Familles d’approches
Apprentissage non-supervisé
Apprentissage non-supervisé
Principe
Etant donné un ensemble non étiqueté S = {xi , i = 1 . . . N} : modélisation de
X
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
33 / 42
Familles d’approches
Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Partitionnement / clustering
Former des groupes homog�nes � l’intérieur d’une population
méthodes hiérarchiques
méthodes agglomératives
méthodes spectrales
méthodes probabilistes
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
34 / 42
Familles d’approches
Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Estimation de densité
Méthodes paramétriques
Méthodes non paramétriques
F
PDF Contour
4
3
2
1
0
-1
-2
-2
Jamal Atif (Université Paris-Dauphine)
-1
0
1
DM-ML
2
3
4
December 11, 2015
34 / 42
Familles d’approches
Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Sélection / recodage de variables
réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc)
identification des variables pertinentes
−5
0
5
Mississippi
0.3
North Carolina
5
0.2
South Carolina
West Virginia Vermont
Georgia
Alabama
Alaska
Arkansas
Kentucky
Louisiana
Tennessee
South Dakota
0.1
Murder
North Dakota
Montana
Maryland
0.0
Idaho
Virginia
New Mexico
Florida
Michigan
Missouri
Rape
Indiana
Nebraska
OklahomaKansas
Delaware
New Hampshire
Iowa
Texas
Oregon
−0.1
Maine
Wyoming
0
Comp.2
Assault
Illinois
Arizona
New York
Nevada
Colorado
Pennsylvania
Wisconsin
Minnesota
Ohio
Washington
−0.2
Connecticut
−5
New Jersey
Utah
Massachusetts
Rhode Island
Hawaii
California
UrbanPop
−0.2
−0.1
0.0
0.1
0.2
0.3
Comp.1
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
34 / 42
Familles d’approches
Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Analyse des corrélations
numériques: étude des corrélations, de l’information mutuelle: A et B
sont liés
symbolique: extraction de r�gles d’association: A → B
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
34 / 42
Familles d’approches
Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Visualisation et exploration des données
projections optimales dans Rp , p petit
constructions de hiérarchies
extraction des exemples / dimensions typiques
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
34 / 42
Familles d’approches
Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Combinaisons
estimation paramétrique + partitionnement
réduction dimension + partitionnement
réduction dimension + visualisation
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
34 / 42
Familles d’approches
Apprentissage non-supervisé
Partitionnement : exemples d’applications
Segmentation de marchés .
Segmentation de documents.
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
35 / 42
Familles d’approches
Apprentissage non-supervisé
Association : exemples d’applications
Entrée : Un ensemble de tickets de caisse
Une observation = un caddie, un ticket de caisse.
Non prise en compte de la fréquence des produits.
Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de
l’ensemble de produits).
Sortie : Des r�gles
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
36 / 42
Familles d’approches
Apprentissage non-supervisé
Association : exemples d’application
Marketing et promotions sur des produits.
Gestion du supermarchés : rayonnage.
Inventaire.
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
37 / 42
Familles d’approches
Apprentissage non-supervisé
Organisation de la session
Partie 1 : Approches non-supervisées
1
2
Introduction générale
Réduction de dimensionalité
Analyse par Composantes Principales
Décomposition en Valeurs Singuli�res : application � l’analyse sémantique
latente et � la recommandation
3
Partitionnement/Clustering
Algorithme K-Moyennes
Clustering hiérarchique
4
5
R�gles d’association
Travaux Pratiques sous R : Text Mining
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
38 / 42
Familles d’approches
Apprentissage non-supervisé
Organisation de la session
Partie 2 : Approches supervisées
Mod�les statistiques, estimation
Mod�les linéaires, prédictions, sélections de variables, LASSO
Régression logistique, classification et évaluation du risque
Quelques méthodes non-paramétriques
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
39 / 42
Familles d’approches
Apprentissage non-supervisé
Résumé
connaissances
masse de données (corpus)
Jamal Atif (Université Paris-Dauphine)
informations
prédictions
DM-ML
December 11, 2015
40 / 42
Familles d’approches
Apprentissage non-supervisé
Logiciels d’ADM
Logiciels commerciaux
Suites logicielles SAS (http://www.sas.com/offices/europe/france/)
SPSS d’IBM (http://www-01.ibm.com/software/fr/analytics/spss/)
Solution Analytics de SAP
(http://www.sap.com/pc/analytics/strategy.html), KXEN
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
41 / 42
Familles d’approches
Apprentissage non-supervisé
Logiciels de data mining
Logiciels gratuits
Weka : http://www.cs.waikato.ac.nz/ml/weka/
Ensemble de classes et d’algorithmes JAVA developpés par l’Université de
Waikato en Nouvelle Zelande.
Principaux algorithmes de data mining.
Utilisable en ligne de commande, � l’aide d’une interface utilisateur, par
l’API.
ScikitLearn
...
Jamal Atif (Université Paris-Dauphine)
DM-ML
December 11, 2015
42 / 42