/DGRQQpHF¶HVWGHO¶RUQRLUGXe siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'InfoRmatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon Université Claude Bernard Lyon 1, bâtiment Nautibus 43, boulevard du 11 novembre 1918 ² F-69622 Villeurbanne cedex http://liris.cnrs.fr /DGRQQpHF¶HVWGHO¶RUQRLUGXe siècle! Partie 1 Mohand-Saïd Hacid [email protected] http://liris.cnrs.fr/mohand-said.hacid Accu Big Data? 1 million characters 1 megabyte 1,000 megabytes 1 gegabyte 1,000 gegabytes 1 terabyte 1,000 terabytes 1 petabyte 1,000 petabytes 1 exabyte Information contenue dans le génome humain Production littéraire annuelle dans le monde Toutes les bibliothèques académiques américaines 2/3 de la production DQQXHOOHG¶LQIRUPDWLRQ Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx BIG DATA Volume, Variété, Vélocité, Valeur + Véracité, Validation, Vérification, ¶¶Vivification¶¶ Plus de données: Nouvelles et meilleurs solutions (pour des problèmes anciens!) Plus de précisions IDC ± International Data Corporation http://www.idc.com/ Décembre 2012 130 EB (2005)Æ40,000 EB (2020) De 2012 à 2020: O¶XQLYHUV numérique doublera chaque année Infrastructure (matériel, logiciel, services, télécommunications, personnel)Æ augmentera de 40% entre 2012 et 2020 /¶LQYHVWLVVHPHQW par GB passera de 2.00$ à 0.20$ (2012-2020) Investissements liés à la gestion du stockage, sécurité, Cloud: augmenteront de façon significative Une petite fraction de O¶XQLYHUV numérique est explorée à des fins G¶DQDO\VH. '¶LFL 2020, 33% de O¶XQLYHUV numérique contiendra des informations utiles à analyser. En 2020: 40% de O¶LQIRUPDWLRQ de O¶XQLYHUV numérique sera accessible via le Cloud« Protection des données: 1/3 en 2010 Æ plus de 40% en 2020 Economie dirigée par les données 2009: Google a contribué à hauteur de 54 M$ à O¶pFRQRPLH américaine Les moteurs de recherche transforment la façon G¶DFFpGHU à O¶LQIRUPDWLRQ Nouvelle économie: Google, Yahoo!, Microsoft, « Information sur le Web Î formater pour les rendre utilisables Nouveaux services: Images satellites, systèmes G¶RULHQWDWLRQ recherche par le contenu, « Wall-Mart/HP: entrepôt de données de 4 PB 267 millions de transactions/jour 6000 magasins Application de techniques G¶DSSUHQWLVVDJH pour un meilleur impact : Des stratégies G¶DSSOLFDWLRQ des prix Des campagnes publicitaires « eScience ± Science dirigée par les données Géoscience: seulement 0.5% de toutes les données collectées ont été examinées. Quelques études: http://www.dphep LSST LHC (accélérateur de particules) comprendre fonctionnement de O¶XQLYHUV 60 TB/jour 15 PB/an (15 millions de GB) Très gros volumes de données Analyse (semi-)automatique LSST (Large Synoptic Survey Telescope) in optical astronomy: http://www.lsst.org/ LHC (Large Hadron Collider) in HEP (High Energy Physics): http://home.web.cern.ch/about/accelerators/large-hadron-collider le Technologie Big Data Capteurs: télescopes, caméras, IRM, puces ADN, individus, organisations, « Réseaux G¶RUGLQDWHXUV Supports de stockage Disque G¶1 TB (< 100 ¼) Contenu des livres de la bibliothèque du congrès: 20 TB Clusters G¶RUGLQDWHXUV (configuration matérielle choisie) Des milliers de Q°XGV (plusieurs disques et processeurs par machine) Verrous algorithmiques Cloud Algorithmes G¶DQDO\VH de données Beaucoup de données Î analyse (semi-)automatique Difficulté: G¶RUGUH algorithmique Nouvelle forme de calcul O¶DQDO\VH raisonnement Combiner statistique, optimisation et Défis! Infrastructure de gestion Distribution Optimisation de requêtes (cas des réseaux de capteurs) ± traitement parallèle Indexation intelligente Traitement de flux de données Qualité des données (aspects, probabilistes, incomplétude «) Sémantique des données Visualisation et interaction intelligentes Outils G¶DQDO\VH de données Intégration de calcul symbolique, de la fouille et de O¶DQDO\VH « &RPSOH[LWpG¶DQDO\VHjGHVpFKHOOHVH[WUrPHV PB Générer des échatillons qui peuvent tenir en PpPRLUHSOXW{WTXHG¶XWLOLVHUWRXWHVOHV données Outils statistiques SAS, Excel, «: utilisables seulement si des gros volumes de données sont réduits à des résumés pouvant tenir en mémoire Conséquence: maintenir des schémas relationnels normalisés et complexes peut V¶DYpUHU difficile et coûteux Orientation ensembliste de SQL Interfaces bas niveau ODBC/JDBC Barrières pour les analystes pour utiliser les bases de données Nouveaux langages et modèles qui traduisent naturellement OlLQWHQWLRQGHVDQDO\VWHV Analyses deviennent plus complexes Reproductibilité de workflows analytiques et leurs résultats devient très important! PetaSky Gestion et exploration des grandes masses de données scientifiques issues G¶REVHUYDWLRQVDVWURQRPLTXHVJUDQGFKDPSV http://com.isima.fr/Petasky LIMOS (/DERUDWRLUHG¶,QIRUPDWLTXHGH0RGpOLVDWLRQHWG¶2SWLPLVDWLRQ des Systèmes, http://limos.isima.fr/) LIRIS (Laboratoire G¶,QIR5PDWLTXH HQ,PDJHHW6\VWqPHVG¶LQIRUPDWLRQ http://liris.cnrs.fr) LPC (Laboratoire de Physique Corpusculaire, http://clrwww.in2p3.fr/index.php/) APC (AstroParticule et Cosmologie, http://www.apc.univparis7.fr/APC_CS/) /$//DERUDWRLUHGHO¶$FFpOpUDWHXU/LQpDLUHhttp://www.lal.in2p3.fr/) CC-IN2P3 (http://cc.in2p3.fr/) Altitude: 2682 mètres Région: Coquimbo Diamètre du télescope: 8 mètres http://www.lsst.org/lsst/public LSST: Large Synoptic Survey Telescope http://www.lsst.org/lsst/public Images: 3.2 Gpix 15 à 30 TB/nuit pendant 10 ans http://www.lsst.org/lsst/public Objectifs généraux Proposer une architecture distribuée capable de stocker 140 PB de données Pouvoir évaluer aussi bien des requêtes simples (quelques secondes de calculs) que des requêtes complexes (des jours de calculs) Possibilité G¶DFFpGHU à des objets en utilisant des indexes ou en procédant à un parcours (scan) complet des grosses tables (>> 1 PB) Verrous Scientifiques Accès séquentiel: 166 minutes pour lire 1 TB de données * Accès parallèle: avec 100 disquesÆ moins de 2 minutes Table Taille #enregistrement s #colonnes (arité) Object 109 TB 38 B 470 Moving Object 5 GB 6M 100 Source 3.6 PB 5T 125 Forced Source 1.1 PB 32 T 7 Difference Image Source 71 TB 200 B 65 CCD Exposure 0.6 TB 17 B 45 Requêtes très coûteuses Exemple: Une simple opération de tri sur tous les objets 10 Peta => 6 h et 27 min avec 8000 machines LSST sera équipé de seulement 150 machines SELECT * FROM Object ORDER BY rGaussianFlux DESC Liste complète des requêtes: http://dev.lsstcorp.org/trac/wiki/dbQueries Défis LSST : ½ million de requêtes par jour ~50 requêtes simples et ~20 requêtes complexes à Q¶LPSRUWH quel moment * Web Data Management. Serge Abiteboul, Ioana Manolescu, Philippe Rigaux, Marie-Christine Rousset, Pierre Senellart Base de données 1 million characters 1 megabyte 1,000 megabytes 1 gegabyte 1,000 gegabytes 1 terabyte 1,000 terabytes 1 petabyte 1,000 petabytes 1 exabyte Table Taille #enregistrements #colonnes (arité) Object 109 TB 38 B 470 Moving Object 5 GB 6M 100 Source 3.6 PB 5T 125 Forced Source 1.1 PB 32 T 7 Difference Image Source 71 TB 200 B 65 CCD Exposure 0.6 TB 17 B 45 Gestion de données - verrous Méta données + catalogues + alertes: stockées dans 75 tables Axes de recherche Requêtes (http://dev.lsstcorp.org/trac/wiki/dbQueries): Analyse G¶XQ objet spécifique Analyse de tous les objets satisfaisant certains critères Dans une région Dans tout le ciel Analyse des objets proches G¶DXWUHV objets Analyses qui nécessitent des groupements spécifiques Analyses de séries temporelles Croisements avec des catalogues externes Indexation (classique + sémantique [méta données]) Fragmentation Optimisation (pré-calculer, ordre G¶pYDOXDWLRQ «) Fouille de données distribuées Axes de Recherche Stockage de données Row, column, tree « Partitionnement et duplication Tenant compte de la typologie et de la fréquence des requêtes Tenant compte de la distribution des traitement (MapReduce) 7HFKQLTXHG¶LQGH[DWLRQG\QDPLTXH 3 attributs => 4 indexes [ABC, AC, BC, C] DWWULEXWV !!!PLOOLDUGG¶LQGH[HVSRXUUpSRQGUH HIILFDFHPHQWjQ¶LPSRUWHTXHOW\SHGHUHTXrWHV 25 (QYLURQQHPHQWG¶H[SpULPHQWDWLRQ Matériel: z 1 machine dotée de 14Go de RAM, 2,5 To de capacité de VWRFNDJHHWF°XUVGH*K] z 3 machines dotées de 4 Go de Ram, 380 Go de capacité de VWRFNDJHHWF°XUVGH*K] Jeu de données PT1.1: z 2 tables avec un volume total de 90 Go z Table Source: 85 Go z Table Object: 5Go Jeu de requêtes: z 10 requêtes SQL standards (sélection, projection, jointure, Group by, Order by, Count) Performances Sans index HadoopDB HIVE Avec index HadoopDB HIVE postgresql Mysql SGBD-Co 1 1554 1362 31,6 1362,17 0,000535 0,19 0,066 2 1386 1359 42,6 1386 0,000366 1,49 0,05 3 1409 1319,752 40,1 1409 0,000391 0,61 0,02 4 1454 1321,936 35,1 1321 0,000372 0,31 0,04 5 279 116,642 200,902 116,642 28,17 39,1 43,564 6 3045 2895 1397 2895,557 732 1426 802 7 94 17 94,986 1188,7 ( > 19 1646,461 (> 27 1646 minutes) minutes) 19 36,58 38,07 1424,04 1417,32 1203 9 99 20354 (> 5 heures) 22250 ( > 6 heures) 1744,752 2171,6 1744,752 0,005 0,46 10 2588 2536 2873 2536,315 3120 1432 0,811 1809 (> 30 minutes) 8 ,QWHUDFWLRQLQWHOOLJHQWHHWGpFRXYHUWHG¶LQIRUPDWLRQV Expérimentation ->Analyse->publication Expérimentation-> Organisation des données->Analyse->Publication La science utilise O¶LQIRUPDWLTXH pour améliorer le processus de découverte /¶LQIRUPDWLTXH permet des découvertes Références http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal Préservation des données NFS: http://www.nsf.gov/pubs/2008/nsf08021/nsf08021.jsp eScience Center (Edinburgh): http://www.nesc.ac.uk/ eScience Institute: http://escience.washington.edu/ Purdue University Discovery Park: http://www.purdue.edu/discoverypark/cyber/ Depuis 1975: VLDB (Very Large Data Bases)- http://www.vldb.org/ Depuis 2007: XLDB (eXtremely Large Data Bases)- http://www.xldb.org SciDB : (Open Source Data Management and Analytics Software for Scientific Research)-http://www.scidb.org/ Mastodons CNRS: http://www.cnrs.fr/mi/spip.php?article151 BIG DATA FAST (and BIG) DATA (cas de Twitter)! How fast is information chiffres de Mars 2013: http://expandedramblings.com/index.php/march-2013-by-the-numbersa-few-amazing-twitter-stats/ /DGRQQpHF¶HVWGHO¶RUQRLUGXe siècle! Partie 2