La donnée, c`est l`or noir du 21e siècle

publicité
/DGRQQpHF¶HVWGHO¶RUQRLUGXe siècle!
Jean-François Boulicaut & Mohand-Saïd Hacid
http://liris.cnrs.fr/~jboulica
http://liris.cnrs.fr/mohand-said.hacid
Laboratoire d'InfoRmatique en Image et Systèmes d'information
LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon
Université Claude Bernard Lyon 1, bâtiment Nautibus
43, boulevard du 11 novembre 1918 ² F-69622 Villeurbanne cedex
http://liris.cnrs.fr
/DGRQQpHF¶HVWGHO¶RUQRLUGXe siècle!
Partie 1
Mohand-Saïd Hacid
[email protected]
http://liris.cnrs.fr/mohand-said.hacid
Accu
Big Data?
1 million characters
1 megabyte
1,000 megabytes
1 gegabyte
1,000 gegabytes
1 terabyte
1,000 terabytes
1 petabyte
1,000 petabytes
1 exabyte
Information contenue
dans le génome humain
Production littéraire
annuelle dans le monde
Toutes les bibliothèques
académiques américaines
2/3 de la production
DQQXHOOHG¶LQIRUPDWLRQ
Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx
BIG DATA
Volume, Variété, Vélocité, Valeur
+
Véracité, Validation, Vérification, ¶¶Vivification¶¶
Plus de données:
‡ Nouvelles et meilleurs solutions (pour des problèmes anciens!)
‡ Plus de précisions
IDC ± International Data Corporation
http://www.idc.com/
Décembre 2012
‡ 130 EB (2005)Æ40,000 EB (2020)
‡ De 2012 à 2020: O¶XQLYHUV numérique
‡
‡
‡
doublera
chaque année
Infrastructure
(matériel,
logiciel,
services,
télécommunications, personnel)Æ augmentera de
40% entre 2012 et 2020
/¶LQYHVWLVVHPHQW par GB passera de 2.00$ à 0.20$
(2012-2020)
Investissements liés à la gestion du stockage,
sécurité,
Cloud:
augmenteront
de
façon
significative
‡ Une
‡
‡
petite fraction de O¶XQLYHUV numérique est
explorée à des fins G¶DQDO\VH. '¶LFL 2020, 33% de
O¶XQLYHUV numérique contiendra des informations
utiles à analyser.
En 2020: 40% de O¶LQIRUPDWLRQ de O¶XQLYHUV
numérique sera accessible via le Cloud«
Protection des données: 1/3 en 2010 Æ plus de
40% en 2020
Economie dirigée par les données
‡ 2009:
Google a contribué à hauteur de 54 M$ à
O¶pFRQRPLH américaine
‡ Les
moteurs de recherche transforment la façon
G¶DFFpGHU à O¶LQIRUPDWLRQ
‡ Nouvelle économie: Google, Yahoo!, Microsoft, «
‡ Information sur le Web Î formater pour les rendre
utilisables
Nouveaux services: Images satellites, systèmes G¶RULHQWDWLRQ
recherche par le contenu, «
‡ Wall-Mart/HP: entrepôt de données de 4 PB
‡ 267 millions de transactions/jour
‡ 6000 magasins
‡ Application de techniques G¶DSSUHQWLVVDJH pour un
meilleur impact :
‡ Des stratégies G¶DSSOLFDWLRQ des prix
‡ Des campagnes publicitaires
‡ «
eScience ± Science dirigée par les données
‡
‡
‡
Géoscience: seulement 0.5% de toutes les données collectées ont été
examinées. Quelques études: http://www.dphep
LSST
LHC
(accélérateur
de
particules)
comprendre
fonctionnement de O¶XQLYHUV
‡ 60 TB/jour
‡ 15 PB/an (15 millions de GB)
Très gros volumes de données
Analyse (semi-)automatique
LSST (Large Synoptic Survey Telescope) in optical astronomy:
http://www.lsst.org/
LHC (Large Hadron Collider) in HEP (High Energy Physics):
http://home.web.cern.ch/about/accelerators/large-hadron-collider
le
Technologie Big Data
‡ Capteurs:
‡
‡
télescopes, caméras, IRM, puces ADN,
individus, organisations, «
Réseaux G¶RUGLQDWHXUV
Supports de stockage
‡ Disque G¶1 TB (< 100 ¼)
‡ Contenu des livres de la bibliothèque du congrès: 20 TB
‡ Clusters
G¶RUGLQDWHXUV
(configuration
matérielle
choisie)
‡ Des milliers de Q°XGV (plusieurs disques et processeurs par
machine)
‡ Verrous algorithmiques
‡ Cloud
‡ Algorithmes G¶DQDO\VH de données
‡ Beaucoup de données Î analyse (semi-)automatique
‡ Difficulté: G¶RUGUH algorithmique
‡ Nouvelle forme de calcul
O¶DQDO\VH
raisonnement
‡ Combiner
statistique,
optimisation
et
Défis!
‡ Infrastructure de gestion
‡ Distribution
‡ Optimisation de requêtes (cas des réseaux de capteurs) ± traitement
parallèle
‡ Indexation intelligente
‡ Traitement de flux de données
‡ Qualité des données (aspects, probabilistes, incomplétude «)
‡ Sémantique des données
‡ Visualisation et interaction intelligentes
‡ Outils G¶DQDO\VH de données
‡ Intégration de calcul symbolique, de la fouille et de O¶DQDO\VH
‡«
&RPSOH[LWpG¶DQDO\VHjGHVpFKHOOHVH[WUrPHV
PB
Générer des échatillons qui peuvent tenir en
PpPRLUHSOXW{WTXHG¶XWLOLVHUWRXWHVOHV
données
Outils statistiques
SAS, Excel, «: utilisables seulement si des gros volumes de données
sont réduits à des résumés pouvant tenir en mémoire
Conséquence: maintenir des schémas relationnels
normalisés et complexes peut V¶DYpUHU difficile et coûteux
Orientation ensembliste de SQL
Interfaces bas niveau ODBC/JDBC
Barrières pour les analystes pour utiliser les bases de données
Nouveaux langages et modèles qui traduisent naturellement OlLQWHQWLRQGHVDQDO\VWHV
Analyses deviennent plus complexes
Reproductibilité de workflows analytiques et leurs résultats
devient très important!
PetaSky
Gestion et exploration des grandes masses de données scientifiques issues
G¶REVHUYDWLRQVDVWURQRPLTXHVJUDQGFKDPSV
http://com.isima.fr/Petasky
LIMOS (/DERUDWRLUHG¶,QIRUPDWLTXHGH0RGpOLVDWLRQHWG¶2SWLPLVDWLRQ
des Systèmes, http://limos.isima.fr/)
LIRIS (Laboratoire G¶,QIR5PDWLTXH HQ,PDJHHW6\VWqPHVG¶LQIRUPDWLRQ
http://liris.cnrs.fr)
LPC (Laboratoire de Physique Corpusculaire,
http://clrwww.in2p3.fr/index.php/)
APC (AstroParticule et Cosmologie, http://www.apc.univparis7.fr/APC_CS/)
/$//DERUDWRLUHGHO¶$FFpOpUDWHXU/LQpDLUHhttp://www.lal.in2p3.fr/)
CC-IN2P3 (http://cc.in2p3.fr/)
Altitude: 2682 mètres
Région: Coquimbo
Diamètre du télescope: 8 mètres
http://www.lsst.org/lsst/public
LSST: Large Synoptic Survey Telescope
http://www.lsst.org/lsst/public
Images: 3.2 Gpix
15 à 30 TB/nuit pendant 10 ans
http://www.lsst.org/lsst/public
Objectifs généraux
Proposer une architecture distribuée capable de
stocker 140 PB de données
Pouvoir évaluer aussi bien des requêtes simples
(quelques secondes de calculs) que des requêtes
complexes (des jours de calculs)
Possibilité G¶DFFpGHU à des objets en utilisant des
indexes ou en procédant à un parcours (scan)
complet des grosses tables (>> 1 PB)
Verrous Scientifiques
Accès séquentiel: 166 minutes pour
lire 1 TB de données *
Accès parallèle: avec 100 disquesÆ
moins de 2 minutes
Table
Taille
#enregistrement
s
#colonnes
(arité)
Object
109 TB
38 B
470
Moving
Object
5 GB
6M
100
Source
3.6 PB
5T
125
Forced
Source
1.1 PB
32 T
7
Difference
Image
Source
71 TB
200 B
65
CCD
Exposure
0.6 TB
17 B
45
Requêtes très coûteuses
Exemple: Une simple opération de tri sur tous les objets
‡
10 Peta => 6 h et 27 min avec 8000 machines
‡
LSST sera équipé de seulement 150 machines
SELECT * FROM Object ORDER BY rGaussianFlux DESC
Liste complète des requêtes: http://dev.lsstcorp.org/trac/wiki/dbQueries
‡ Défis LSST :
‡ ½ million de requêtes par jour
‡ ~50 requêtes simples et ~20 requêtes complexes à Q¶LPSRUWH quel moment
* Web Data Management. Serge Abiteboul, Ioana Manolescu, Philippe Rigaux, Marie-Christine Rousset, Pierre Senellart
Base de données
1 million characters
1 megabyte
1,000 megabytes
1 gegabyte
1,000 gegabytes
1 terabyte
1,000 terabytes
1 petabyte
1,000 petabytes
1 exabyte
Table
Taille
#enregistrements
#colonnes (arité)
Object
109 TB
38 B
470
Moving Object
5 GB
6M
100
Source
3.6 PB
5T
125
Forced Source
1.1 PB
32 T
7
Difference
Image Source
71 TB
200 B
65
CCD Exposure
0.6 TB
17 B
45
Gestion de données - verrous
Méta données + catalogues + alertes: stockées dans 75 tables
Axes de recherche
Requêtes (http://dev.lsstcorp.org/trac/wiki/dbQueries):
Analyse G¶XQ objet spécifique
‡ Analyse de tous les objets satisfaisant certains critères
‡Dans une région
‡Dans tout le ciel
‡ Analyse des objets proches G¶DXWUHV objets
‡ Analyses qui nécessitent des groupements spécifiques
‡ Analyses de séries temporelles
‡ Croisements avec des catalogues externes
‡ Indexation (classique + sémantique [méta données])
‡ Fragmentation
‡ Optimisation (pré-calculer, ordre G¶pYDOXDWLRQ «)
‡ Fouille de données distribuées
Axes de Recherche
‡
‡
Stockage de données
‡ Row, column, tree «
Partitionnement et duplication
‡ Tenant compte de la typologie et de la fréquence des
‡
requêtes
‡ Tenant compte de la distribution des traitement
(MapReduce)
7HFKQLTXHG¶LQGH[DWLRQG\QDPLTXH
‡ 3 attributs => 4 indexes [ABC, AC, BC, C]
‡ DWWULEXWV !!!PLOOLDUGG¶LQGH[HVSRXUUpSRQGUH
HIILFDFHPHQWjQ¶LPSRUWHTXHOW\SHGHUHTXrWHV
25
(QYLURQQHPHQWG¶H[SpULPHQWDWLRQ
Matériel:
z 1 machine dotée de 14Go de RAM, 2,5 To de capacité de
VWRFNDJHHWF°XUVGH*K]
z 3 machines dotées de 4 Go de Ram, 380 Go de capacité de
VWRFNDJHHWF°XUVGH*K]
Jeu de données PT1.1:
z 2 tables avec un volume total de 90 Go
z Table Source: 85 Go
z Table Object: 5Go
Jeu de requêtes:
z 10 requêtes SQL standards (sélection, projection, jointure,
Group by, Order by, Count)
Performances
Sans index HadoopDB HIVE Avec index HadoopDB HIVE postgresql Mysql SGBD-Co 1 1554 1362 31,6 1362,17 0,000535 0,19 0,066 2 1386 1359 42,6 1386 0,000366 1,49 0,05 3 1409 1319,752 40,1 1409 0,000391 0,61 0,02 4 1454 1321,936 35,1 1321 0,000372 0,31 0,04 5 279 116,642 200,902 116,642 28,17 39,1 43,564 6 3045 2895 1397
2895,557 732 1426 802 7 94 17 94,986 1188,7 ( > 19 1646,461 (> 27 1646 minutes) minutes) 19 36,58 38,07 1424,04 1417,32 1203 9 99 20354 (> 5 heures) 22250 ( > 6 heures) 1744,752 2171,6 1744,752 0,005 0,46 10 2588 2536 2873 2536,315 3120 1432 0,811 1809 (> 30
minutes) 8 ,QWHUDFWLRQLQWHOOLJHQWHHWGpFRXYHUWHG¶LQIRUPDWLRQV
Expérimentation ->Analyse->publication
Expérimentation-> Organisation des données->Analyse->Publication
La science utilise
O¶LQIRUPDWLTXH pour
améliorer le processus
de découverte
/¶LQIRUPDWLTXH
permet des
découvertes
Références
http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal
Préservation des données
NFS: http://www.nsf.gov/pubs/2008/nsf08021/nsf08021.jsp
eScience Center (Edinburgh): http://www.nesc.ac.uk/
eScience Institute: http://escience.washington.edu/
Purdue University Discovery Park:
http://www.purdue.edu/discoverypark/cyber/
Depuis 1975: VLDB (Very Large Data Bases)- http://www.vldb.org/
Depuis 2007: XLDB (eXtremely Large Data Bases)- http://www.xldb.org
SciDB : (Open Source Data Management and Analytics Software for
Scientific Research)-http://www.scidb.org/
Mastodons CNRS: http://www.cnrs.fr/mi/spip.php?article151
BIG DATA
FAST (and BIG) DATA (cas de Twitter)!
How fast is information
chiffres de Mars 2013:
http://expandedramblings.com/index.php/march-2013-by-the-numbersa-few-amazing-twitter-stats/
/DGRQQpHF¶HVWGHO¶RUQRLUGXe siècle!
Partie 2
Téléchargement