Fouille de données / Data Mining

Téléchargement

Julien VELCIN

Université Lumière Lyon 2

Master 2 parcours CEE

1 / 100

Remerciements

⌅Julien Jacques

Pr. de Statistique (ICOM, Lyon 2)

⌅Sabine Loudcher

Pr. d’Informatique (ICOM, Lyon 2)

⌅Julien Ah-Pine

MCF d’Informatique (ICOM, Lyon 2)

2 / 100

La fouille de données : qu’est-ce que c’est ?

Première déﬁnition

Ensemble de méthodes destinées à extraire d’un ensemble de données

celles qui ont le plus de valeur.

Deuxième déﬁnition

Ensemble d’approches statistiques permettant d’extraire de l’information

de grands jeux de données dans une perspectives d’aide à la décision.

Ma déﬁnition

Ensemble d’approches permettant d’extraire de l’information utile de

grands jeux de données, utile pouvant être une information qui :

⌅conﬁrme un élément connu mais cette fois de manière rigoureuse,

systématique,

⌅apprend quelque chose de nouveau qui enrichit notre perception des

données (et du problème sous-jacent),

⌅peut être employée dans une perspective d’aide à la décision.

3 / 100

Les étapes du data mining1

1. Nettoyage des données (erreurs, données manquantes, outliers)

2. Transformation éventuelle des données (normalisation, linéarisation...)

3. Explicitation de l’objectif de l’analyse (recherche de motifs, régression,

classiﬁcation, clustering...)

4. Choix de la méthode et mise en oeuvre informatique ( ...)

5. Test (validation de la qualité des résultats)

6. Exploitation

1P. Besse et al., Data Mining et Statistique, Journal de la Société Française de

Statistique, 142[1], 2001.

4 / 100

Data mining et informatique décisionnelle

5 / 100

La fouille de données : quelques références

(conseillées par J. Jacques)

6 / 100

La fouille de données : quelques références

⌅http://mediamining.univ-lyon2.fr/velcin/

⌅http://eric.univ-lyon2.fr/⇠ricco/data-mining/

⌅http://data.mining.free.fr

⌅http://eric.univ-lyon2.fr/⇠jjacques/

⌅http://larmarange.github.io/analyse-R/

7 / 100

La fouille de données : à quoi cela sert ?

⌅publicité ciblée sur internet

⌅identiﬁcation des prospects les plus susceptibles de devenir clients

⌅reconnaissance faciale dans une image

⌅évaluer le risque d’un client (credit scoring)

⌅détection de fraudes bancaires

⌅analyse automatique de contenus textuels (text mining)

⌅reconnaissance de la parole

⌅recommandation automatique

⌅prévision de consommation d’électricité

⌅prévision de traﬁc routier

⌅tester l’efﬁcacité d’un traitement médical

⌅etc.

8 / 100

D’où vient le data mining ?

Le data mining se nourrit de multiples inﬂuences

⌅Statistique (analyse des données)

⌅Intelligence artiﬁcielle (apprentissage automatique)

⌅Bases de données (on parle de KDD)

9 / 100

Un peu d’histoire2

⌅1875 : régression linéaire de Francis Galton

⌅1896 : formule du coefﬁcient de corrélation de Karl Pearson

⌅1900 : distribution du 2de Karl Pearson

⌅1936 : analyse discriminante de Fisher et Mahalanobis

⌅1941 : analyse factorielle des correspondances de Guttman

⌅1943 : réseaux de neurones de Mc Culloch et Pitts

⌅1944 : régression logistique de Joseph Berkson

⌅1958 : perceptron de Rosenblatt

⌅1962 : analyse des correspondances de J.P. Benzécri

⌅1964 : arbre de décision AID de J.P. Sonquist et J.A. Morgan

⌅1965 : méthode des centres mobiles de E.W. Forgy

⌅1967 : méthode des k-means de MacQueen

⌅1972 : modèle linéaire généralisé de Nelder et Wedderburn

2Directement extrait des transparents de S. Tufféry: http://data.mining.free.fr

10 / 100

Un peu d’histoire (suite)

⌅1975 : algorithmes génétiques de Holland

⌅1975 : méthode de classement DISQUAL de Gilbert Saporta

⌅1980 : arbre de décision CHAID de KASS

⌅1983 : régression PLS de Herman et Svante Wold

⌅1984 : arbre CART de Breiman, Friedman, Olshen, Stone

⌅1986 : perceptron multicouches de Rumelhart et McClelland

⌅1989 : réseaux de T. Kohonen (cartes auto-adaptatives)

⌅vers 1990 : apparition du concept de data mining

⌅1993 : arbre C4.5 de J. Ross Quinlan

⌅1996 : bagging (Breiman) et boosting (Freund-Shapire)

⌅1998 : support vector machines de Vladimir Vapnik

⌅2000 : régression logistique PLS de Michel Tenenhaus

⌅2001 : forêts aléatoires de L. Breiman

11 / 100

Le data mining aujourd’hui

On parle plus volontiers de “data science” qui regroupe toutes les

activités autour des données, au-delà de l’aspect analyse :

12 / 100

Le data mining aujourd’hui

Ce qui a changé la donne :

⌅des capacités de stockage et de calculs en constante augmentation

⌅constitution de gigantesques bases de données, en particulier au

sein des entreprises

⌅l’accès à des logiciels de plus en plus performants pour traiter ces

données

⌅des technologies innovantes, par ex. issues de l’IA, qui “sortent des

laboratoires” (machine learning)

13 / 100

La fouille de données : panorama des méthodes

fouille de données

méthodes

prédictives

méthodes

descriptives

14 / 100

La fouille de données : panorama des méthodes

méthodes

prédictives

classiﬁcation

supervisée

prédire

Y quali.

régression

prédire

Y quanti.

méthodes

descriptives

détections

de liens

recherche

d’associations

analyse

factorielle

ACP, AFC,

ACM

clustering

15 / 100

La fouille de données : panorama des méthodes

Ce qui n’est pas abordé dans ce cours :

⌅analyse factorielle (ACP, AFC, ACM...)

projection et visualisation de données dans un espace de dimension

faible

⌅régression

prédire une variable quantitative

⌅détections de liens

extraire des motifs fréquents ou des règles d’association

16 / 100

La fouille de données : panorama des méthodes

Ce qui est abordé dans ce cours :

⌅clustering (classiﬁcation automatique, classiﬁcation non supervisée,

segmentation, typologie...) :

regrouper des individus qui se ressemblent en catégories homogènes

⌅classiﬁcation supervisée (discrimination, analyse discriminante,

scoring) :

classer des individus dans des classes déﬁnies a priori

Notations :

⌅les individus (observations) sont décrits par un ensemble de p

variables aléatoires explicatives X=(X1,...,Xp)2E(E=Rp,...)

⌅Xi=(Xi1,...,Xip)sont les variables explicatives pour l’individu i

(1 in)

⌅Zi2{1,...,K}est le numéro de la classe de l’individu i

17 / 100

Classiﬁcation non supervisée vs supervisée

Classiﬁcation non supervisée

⌅Ziinconnue (aucun à priori)

⌅objectif : à partir de l’observation de X1,...,Xn, trouver Z1,...,Zn

⌅les classes sont ensuite interprétées dans le but de leur donner une

signiﬁcation concrète

Classiﬁcation supervisée

⌅Ziconnue (signiﬁcation connue a priori)

⌅objectif : à partir de l’observation de (X1,Z1),...,(Xn,Zn)construire

une règle de classement (classiﬁeur) r:

r:X! r(X)=Z

⌅utiliser cette règle de classement pour classer de nouveaux individus

de classes inconnues

18 / 100

Apprentissage automatique inductif

Aristote

“La connaissance vient du monde”

Déﬁnition

Trouver des règles générales (voire des concepts) à partir d’un

ensemble d’observations particulières

Autres types d’apprentissage

⌅apprentissage par cœur

⌅apprentissage par renforcement

⌅apprentissage par abduction

19 / 100

Applications

Classiﬁcation non supervisée

⌅analyse exploratoire : donner une représentation simpliﬁée des

données pour mieux les comprendre

⌅exemple : typologie clients en marketing (Gestion de la relation

clients / CRM - Customer Relationship Management)

Classiﬁcation supervisée

⌅analyse prédictive : prédire une variable (Z) qualitative à partir de

variables explicatives (X)

⌅exemples : prédire si un prospect va acheter le produit qu’on lui

propose, prédire la probabilité qu’un patient soit atteint d’une certaine

maladie...

20 / 100

1 / 13 100%

Documents connexes

Fiche-UE_CODE_CR_OPT_DM - LIRIS

algorithme algorithme -bases -une

Entreprise 29 - Offre 141

Data Mining : Techniques et Applications

L`algorithme suivant est décrit en langage pseudo

TP 2 Fouille de données

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Fouille de données / Data Mining

Grille d'évaluation orale ISN - Compétences et capacités

Initiation à la science des données-data science

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Fouille de données / Data Mining

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Fouille de données / Data Mining

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib