Big Data et analyse des données - thierry verdel, école des mines

publicité
Big Data et analyse des données :
une (petite)
(
i ) introduction
i
d
i
Yves Gueniffey
Ecole des Mines de Nancy
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
1
Comment la révolution sociale des
données change (presque) tout
d’après Andreas Weigend, Stanford (ex Amazon)
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
2
Construire des ordinateurs
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
Connecter des ordinateurs
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
1970’s
97
3
1980’s
9
4
Connecter des pages
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
Connecter des gens
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
1990’s
99
5
2000’s
6
Connecter des
capteurs
Janvier 2014
2010’s
Big Data et Analyse des données - Yves Gueniffey
7
Le téléphone
p
mobile
•
Capte le contexte et la situation
- Lumière, sons ambiants
- Géo-localisation (lieu, mouvement)
•
Permet des interactions à la vitesse de la lumière
•
Janvier 2014
Micro-tâches
Micro
tâches (annotations)
lié à une personne
Big Data et Analyse des données - Yves Gueniffey
8
L’internet des objets
j
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
9
L’internet des objets
j
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
10
L’internet des objets
j
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
11
L’internet des objets
j
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
12
A la base ?
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
13
Création / Production de données
La quantité de données que chaque personne
produit
double chaque 1,5 … 2 années
1 5 2 années
•
après cinq années
 x 10
•
après dix années
 x 100
•
après vingt
è i
années
é
 x 10000
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
14
g the
“Surfing
Tsunami”
Science: 11 February 2011
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
15
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
16
Data Deluge
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
17
Qu’est-ce que le Data Mining?
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
18
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
19
Des exemples…
p
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
20
Qu’est-ce que le Data Mining?
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
21
Qu’est-ce que le Data Mining?
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
22
La montée du trading à haute fréquence (2008-2012)
chaque jour de cotation (9:30-16:00), heure NY) est dessiné avec une couleur qui va
du violet pour les données les plus anciennes au rouge pour les plus récentes.
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
23
Le "Flash Crash » : Un accident du trading hautes-fréquences
Le 6 mai 2010, l’indice Dow Jones ((Industrial Average)
g ) (DJIA)
(
) a chuté
d’environ 600 points (5.7%), puis est revenu à son niveau « normal » (entre
14:42:46 et 14:47:02)
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
24
Inside
Google’s
Data
Centers
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
25
Centre de traitement de Google
d Th
de
The D
Dalles
ll en Oregon
O
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
26
La logistique
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
27
La logistique
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
28
Risque :
où sont vos données?
Photo
credits:
Janvier
2014
Harvey Rutt http://www.ecs.soton.ac.uk/regenesis/pictures/
Big Data et Analyse des données - Yves Gueniffey
29
WIRED MAGAZINE: Issue 16.07
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
30
Les paradigmes de la science

(Jim Gray)
Il y a 800 ans :
la science était empirique
elle décrivait les phénomènes naturels

Il y a 500 ans :
la science devient théorique
généralisation à partir de modèles

Il y a quelques dizaines d’années,
introduction de l’informatique
simulation des phénomènes complexes

Aujourd’hui :
exploration des données (eScience)
théorie de ll’expérimentation
Unification de la théorie,
expérimentation
et de la simulation avec l’exploration statistique
des bases de données



données en temps réel et distribuées
en provenance de capteurs ou générées par simulation
traitées par informatique
Janvier 2014
Big Data et Analyse des données - Yves
Gueniffey
31
Q ’
Qu’est-ce
que le
l Data
D
Mining
Mi i
?
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
32
Qu’est-ce
Qu
est-ce que le Data Mining ?

Data mining (knowledge discovery in databases) :


Autres noms :


Janvier 2014
Extraction d’informations
d informations intéressantes (non-triviales,
non triviales
implicites, inconnues auparavant et potentiellement utiles)
ou de structures à partir des données contenues dans de
grandes bases de données
Data mining : fouille de données
Knowledge discovery in databases (KDD), extraction de
connaissances analyse des données
connaissances,
données, archéologie des
données, moisson d’information, intelligence économique
(business intelligence), etc.
33
Big Data et Analyse des données - Yves Gueniffey
“Combien” d’information ?



On pourra bientôt tout indexer
et enregistrer
L majeure
La
j
partie
ti d
de cette
tt
information sera inconnue des
humains
Synthétiser les données,
repérer des tendances
détecter des anomalies
sont donc des techniques
essentielles
Tout
E
Enregistré
ité
Zetta 21
Tous les livres
MultiMédia
Exa 18
Peta 15
Tous les livres
(mots)
.Film
D’après Jim Gray et Gordon Bell
Microsoft Research
Photo
24 Yecto, 21 zepto, 18 atto, 15 femto, 12 pico, 9 nano, 6 micro, 3 milli
Janvier 2014
Yotta 24
Livre
Big Data et Analyse des données - Yves Gueniffey
Tera 12
Giga 9
Mega 6
Kilo 3
34
Pourquoi fouiller les données ?
Point de vue scientifique
Les données sont collectées
et enregistrées à des vitesses énormes
(GB/h)

Capteurs sur un satellite


NASA EOSDIS archive
plusieurs pétabytes de données
géoscientifiques par an
Télescopes observent les cieux
Analyse du génôme
simulations scientifiques




térabytes de données générées en quelques heures
Les techniques
q
traditionnelles d’analyse
y sont
impraticables
Le Data mining peut aider les scientifiques


À analyser automatiquement de grands ensembles de données
À formuler des hypothèses


Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
35
Pourquoi fouiller les données ?
P i td
Point
de vue commercial
i l
Des monceaux de données sont
saisis et stockés






Données du Web
achats en hyper/supermarchés
Opérations bancaires
Les ordinateurs
L
di t
d
deviennent
i
td
de plus
l en plus
l
puissants et de moins en moins chers
La pression de la compétition est forte

Fournir de meilleurs services à des tranches ciblées
de clients (CRM, Customer Relationship
M
Management)
)
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
36
Détection des anomalies


Repérer des activités significativement éloignées de
la “normalité”
normalité
Applications:
Détection des fraudes
à la carte de crédit
 Détection des intrusions
dans les réseaux

Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
37
Big Data et Analyse des données - Yves Gueniffey
38
Couponing
Janvier 2014
Data Mining : Un processus de
dé
découverte
t d
de connaissance
i
Evaluation des structures

Data mining: le “noyau” du
processus de découverte de la
p
connaissance
Data Mining
D
Données
é ““ciblées”
iblé ”
Entrepôt de données
(Data Warehouse)
Sélection
Nettoyage
Intégration des données
Bases de données
Janvier 2014
39
Big Data et Analyse des données - Yves Gueniffey
Multidisciplinary
Statistics
Pattern
Neurocomputing
p
g
Recognition
Machine
Data Mining
g Learning
AI
Databases
KDD
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
40
Les méthodes de la statistique
et d’analyse
y des données sont
au cœur du « moteur » du
Data Mining
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
41
Analyse des données
Une introduction
D’après :
Ludovic Lebart, Alain Morineau et Marie Piron. Statistique exploratoire multidimensionnelle. Dunod.
Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples. Dunod.
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
42
Q
Quelles
types
yp de données pour
p
quels problèmes ?
Quelques milliers de variables (p)
Quelques
millions
d’individus
((n))
Janvier 2014
X
Variables :
(n p)
(n,
Données
Nominales
O
Ordinales
di l
Discrètes
Continues
Ratios
Big Data et Analyse des données - Yves Gueniffey
43
Analyse n-variée
Données « Températures »
ID
bord
bres
cler
gren
lill
lyon
mars
mont
nant
nice
i
pari
renn
stra
tlse
villes
janvier fevrier mars avril
mai
juin
juillet aout
septembre octobre novembre decembre
bordeaux
5,6
6,6
10,3
12,8
15,8
19,3
20,9
21
18,6
13,8
9,1
6,2
brest
6,1
5,8
7,8
9,2
11,6
14,4
15,6
16
14,7
12
9
7
clermont
2,6
3,7
7,5
10,3
13,8
17,3
19,4
19,1
16,2
11,2
6,6
3,6
grenoble
1,5
3,2
7,7
10,6
14,5
17,8
20,1
19,5
16,7
11,4
6,5
2,3
lille
2,4
2,9
6
8,9
12,4
15,3
17,1
17,1
14,7
10,4
6,1
3,5
lyon
2,1
3,3
7,7
10,9
14,9
18,5
20,7
20,1
16,9
11,4
6,7
3,1
marseille
5,5
6,6
10
13
16,8
20,8
23,3
22,8
19,9
15
10,2
6,9
montpellier
5,6
6,7
9,9
12,8
16,2
20,1
22,7
22,3
19,3
14,6
10
6,5
nantes
5
5,3
8,4
10,8
13,9
17,2
18,8
18,6
16,4
12,2
8,2
5,5
nice
i
75
7,5
85
8,5
10 8
10,8
13 3
13,3
16 7
16,7
20 1
20,1
22 7
22,7
22 5
22,5
20 3
20,3
16
11 5
11,5
82
8,2
paris
3,4
4,1
7,6
10,7
14,3
17,5
19,1
18,7
16
11,4
7,1
4,3
rennes
4,8
5,3
7,9
10,1
13,1
16,2
17,9
17,8
15,7
11,6
7,8
5,4
strasbourg
0,4
1,5
5,6
9,8
14
17,2
19
18,3
15,1
9,5
4,9
1,3
toulouse
4,7
5,6
9,2
11,6
14,9
18,7
20,9
20,9
18,3
13,3
8,6
5,5
Le tableau donne les moyennes des températures mensuelles calculées sur 30 ans (entre 1931 et 1960) de 15
villes de France (extraites du Quid)
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
44
Description statistique
ANALYSE EN COMPOSANTES PRINCIPALES
STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES
EFFECTIF TOTAL :
15
POIDS TOTAL
:
15.00
+-------------------------------------------------------+----------------------+----------------------+
| NUM . IDEN - LIBELLE
EFFECTIF
POIDS | MOYENNE ECART-TYPE |
MINIMUM
MAXIMUM |
+-------------------------------------------------------+----------------------+----------------------+
|
1 . janv - janvier
15
15.00 |
3.97
1.94 |
0.40
7.50 |
|
2 . fevr - fevrier
15
15.00 |
4.83
1.81 |
1.50
8.50 |
|
3 . mars - mars
15
15.00 |
8.23
1.48 |
5.60
10.80 |
|
4 . avri - avril
15
15.00 |
10.98
1.37 |
8.90
13.30 |
|
5 . mai - mai
15
15.00 |
14.43
1.45 |
11.60
16.80 |
|
6 . juin - juin
15
15.00 |
17.83
1.73 |
14.40
20.80 |
|
7 . j
juil - j
juillet
15
15.00 |
19.83
2.06 |
15.60
23.30 |
|
8 . aou - aout
15
15.00 |
19.57
1.94 |
16.00
22.80 |
|
9 . sept - septembre
15
15.00 |
16.99
1.79 |
14.70
20.30 |
| 10 . oct - octobre
15
15.00 |
12.32
1.77 |
9.50
16.00 |
| 11 . nov - novembre
15
15.00 |
7.93
1.74 |
4.90
11.50 |
| 12 . dec - decembre
15
15.00 |
4.85
1.89 |
1.30
8.20 |
|-------------------------------------------------------|----------------------|-----------------------
La matrice des corrélations
MATRICE DES CORRELATIONS
|
janv
fevr
mars
avri
mai
juin
juil
aou
sept
oct
nov
dec
-----+-----------------------------------------------------------------------------------janv |
1.00
fevr |
0.97
1.00
mars |
0.84
0.93
1.00
avri |
0.61
0.76
0.92
1.00
mai |
0.36
0.55
0.77
0.95
1.00
juin |
0.34
0.52
0.76
0.94
0.99
1.00
juil |
0.30
0.49
0.72
0.91
0.98
0.99
1.00
aou |
0.41
0.59
0.80
0.95
0.98
0.99
0.99
1.00
sept |
0.60
0.76
0.91
0.98
0.94
0.94
0.93
0.97
1.00
oct |
0.85
0.94
0.97
0.91
0.77
0.76
0.74
0.81
0.93
1.00
nov |
0.95
0.99
0.93
0.78
0.59
0.57
0.55
0.64
0.80
0.96
1.00
dec |
0.99
0.97
0.83
0.62
0.38
0.36
0.32
0.43
0.62
0.87
0.96
1.00
-----+-----------------------------------------------------------------------------------|
janv
fevr
mars
avri
mai
juin
juil
aou
sept
oct
nov
dec
Corrélation R significative au risque 5% si |R| > 2/
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
n-3
45
Multidiagramme
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
46
Icon Plot (15villes 12v*15c)
bordeaux
brest
clermont
lyon
marseille
paris
rennes
Janvier 2014
grenoble
lille
montpellier
nantes
nice
strasbourg
toulouse
vichy
Clockwise:
janvier
fevrier
mars
avril
mai
juin
j ill t
juillet
aout
septembre
octobre
novembre
decembre
Big Data et Analyse des données - Yves Gueniffey
47
Icon Plot (15villes 12v*15c)
bordeaux
brest
clermont
grenoble
lille
lyon
marseille
montpellier
nantes
nice
paris
rennes
strasbourg
toulouse
vichy
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
face/w = janvier
ear/lev = fevrier
halfface/h = mars
upface/ecc = avril
loface/ecc = mai
nose/l = juin
mouth/cent
th/
t = juillet
j ill t
mouth/curv = aout
mouth/l = septembre
eyes/h
y
= octobre
eyes/sep = novembre
eyes/slant = decembre
48
http://www gapminder org/
http://www.gapminder.org/
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
49
Analyse
y multi-dimensionnelle
de données
On prend les variables « ensemble »

DECRIRE



Janvier 2014

Groupes homogènes
d’individus
Particularités
Anomalies
EXPLIQUER



Sous-systèmes de variables
Variables redondantes
Facteurs (fonctions
(f
d
des
variables) synthétiques
Big Data et Analyse des données - Yves Gueniffey
50
Espaces de représentation (1)
Variables
I
n
d
i
v
i
d
u
s
X=
(n p)
Janvier 2014
j
i
x1
x1
x11
j
p
xi1
xnp
xij
xip
xn1
xnj
xnp
51
Big Data et Analyse des données - Yves Gueniffey
Espaces de représentation (2)
j
X
i
x11
x1
j
xi1
xnp
xij
xi
x1
p
p
p
Rp
xi
xij
xip
j
xi1
xn1
Janvier 2014
xnj
xnp
1
ESPACE DES INDIVIDUS
1 point=1 individu=1 ligne de X
1 axe=1 variable
p axes, n points
Big Data et Analyse des données - Yves Gueniffey
52
Espaces de représentation (3)
j
X
i
x11
xi1
x1
x1
j
p
xnp
xij
xip
n
xnj
xj
Rn
xij
i
x1
j
xn1
Janvier 2014
xnj
xnp
1
ESPACE DES VARIABLES
1 point=1 variable=1 colonne de X
1 axe=1 individu
n axes, p points
Big Data et Analyse des données - Yves Gueniffey
53
D
Deux
ffamilles
ill de
d méthodes
éth d (1)
Configuration « invisible »

Visualisation dans le
meilleur espace réduit

Méthodes « factorielles »



Janvier 2014
Analyse en composantes
principales
Analyse factorielle des
correspondances simples
Analyse factorielle des
correspondances multiples
Big Data et Analyse des données - Yves Gueniffey
54
« Projeter sur un plan »
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
55
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
56
Les Ambassadeurs de Hans Holbein ((1497 – 1543))
Janvier 2014
57
Big Data et Analyse des données - Yves Gueniffey
Cercle des corrélations
Mois d
d’été
été
« climat
continental »
Nord
« effet tqille »
Sud
Mois d’hiver
« climat
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
océanique » 58
Plan factoriel 1-2
« continental »
Nord
Sud
« océanique »
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
59
Deux familles de méthodes (2)
Configuration « invisible »

Classification dans ll’espace
espace
complet


Janvier 2014
Classification hiérarchique
Partition
Big Data et Analyse des données - Yves Gueniffey
60
Classification hiérarchique
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
61
Plan factoriel 1-2
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
62
« Philosophie
Phil
hi »
de l’Analyse
l Analyse de données
« Consentir une perte d’information
pour obtenir
bt i un gain
i de
d signification
i ifi ti »
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
63
LL’analyse
analyse statistique
(d’après Alain Morineau)

Considérons la décomposition classique :
DONNEE = STRUCTURE + RESIDU


Janvier 2014
Pour la statistique classique (mathématique) c'est la partition de la
variance en « variance expliquée » (par le modèle choisi) et la
« variance résiduelle »
Pour l'analyse des données :
 Pour les analyses factorielles : décomposition en « axes
principaux » et « sous-espace
sous espace résiduel »
 Pour la classification : décomposition de la variance en
« variance intra-groupe » et « variance inter-groupe »
Big Data et Analyse des données - Yves Gueniffey
64
DONNEE = STRUCTURE + RESIDU

La STATISTIQUE (modélisante):
Elle dirige
Ell
di i son microscope
i
sur la
l partie
ti RESIDU
(la STRUCTURE est dans le modèle choisi)





Janvier 2014
Régression
Discriminante
Analyse de variance…
variance
La statistique manipule
l le
l résidu
é d qui est un élément
élé
« abstrait
b
»
L'examen des résidus renseigne sur la qualité du modèle choisi
Big Data et Analyse des données - Yves Gueniffey
65
DONNEE = STRUCTURE + RESIDU

L'ANALYSE DES DONNEES (exploratoire) :
Elle dirige son phare sur la partie STRUCTURE





Analyse
Anal
se factorielle…
facto ielle
Classification, arbre de segmentation…
L'analyse des données manipule les données elles-mêmes
L'e men de la
L'examen
l structure
t t ee
estt à pe
peu de chose
ho e p
près
è l'e
l'examen
men
de la donnée elle-même
Exploration patiente et approfondie des grands tableaux
« Individus x Variables »
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
66
Le Data mining
On travaille sur de grosses bases de données amorphes et évolutives
(capteurs + bases de données -> numérisation systématique de l’information)
On utilise les méthodes :
de l'analyse des données (orientées structures)
de la statistique (orientées
é modèles)
è
les techniques de l'Intelligence Artificielle (algorithmes)
et les techniques informatiques d'accès aux bases de données.
Le contexte est nouveau :
On doit prendre en compte les contraintes liées au volume des données et donc des
calculs
l l
Aller vite et être automatique (autant que possible)
Les données ne sont jamais familières à l'utilisateur
Les données ou les bases de données sont dispersées
Les données sont non échantillonnées (souvent non échantillonnables)
plus de 50% de données non numériques
q
Souvent p
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
67
Data Mining et éthique…
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
68
La NSA…
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
69
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
70
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
71
De nouveaux métiers
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
72
“Data is the new oil.”
Andreas Weigend,
Weigend Stanford (ex Amazon)
“The future belongs to
companies
i and
d people
l that
th t turn
t
data into products
products”
Mike Loukides, O’Reilly Media
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
73
“The
The ability to take data to be able to understand it,,
to process it, to extract
value from it, to visualise
it to communicate it it,
that’s
that
s going to be a hugely
important skill in the next
decades.”
Janvier 2014
Hal Varian, Chief Economist, Google
Big Data et Analyse des données - Yves Gueniffey
74
Janvier 2014
Janvier 2014
Big Data et Analyse des données - Yves
Gueniffey
Big Data et Analyse des données - Yves Gueniffey
75
76
Janvier 2014
Big Data et Analyse des données - Yves Gueniffey
77
Téléchargement