BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d’analyse 1960 Organisation classique en fichier 1980 1970 Premier SGBD 2 ème génération des SGBD: Les systèmes relationnels Méthodes d’analyses statistiques classiques 1985 3 ème génération des SGBD: Les systèmes orientés objets. 2000 Entrepôt de données 1er méthode d’analyse Fouille de chimiométrique données. multivariée : Exploratoires (ACP,AFCM) Régression(PCR, PLS) 2012 Explosion du volume de données Méthodes pas assez puissante pour traiter et analyser toutes ces données 3 Introduction Volume Vitesse Variété à Big Data Ensemble de données trop volumineuses et variées pour être stockées ettraitées avec des outils classiques de gestion de base de données. Problèmatique: Comment stocker et analyser ces données? Introduction 4 Qui est concerné par le Big Data q Web, internet et objet communicant : e-Journaux, réseaux sociaux, ecommerce, stockage de document, RFID, réseaux de capteurs… q Sciences : génomique, astronomie, climatologie… q Données commerciales, personnelles, publiques. (Historique de transaction dans une chaine de supermarchés, Dossier médicaux, Open data ) Fournisseurs de solutions Leader du web Le secteur scientifique Les grands acteurs de logiciel et système d’entreprises 5 Plan Formes de stockage des données Méthode de traitement Conclusion et perspectives I. Quelles formes de stockage ? 6 Modèle classique : BD relationnelle Interrogation par requête SQL Techniquement impossible sur du big data Modèle NoSQL (not only SQL) I. Quelles formes de stockage ? Le modèle NoSQL Base du NoSQL : structure Clé Valeur Nina agroTIC Malek Tunisie Léo Etudiant 7 « clé-valeur » distribuée Clé Valeur Malek Etudiante Léo 23 Nina France Bruno Enseignant Simplifier les BD : Supprimer les relations entre tables Transférer l’intelligence des requêtes SQL vers l’applicatif qui interroge la BD Pouvoir répartir la BD sur plusieurs serveurs I. Quelles formes de stockage ? 8 Base de donnée clé-valeur AVANTAGES Stocker un grand nombre de données et de nature variée Effectuer des requêtes rapides Augmentation de la capacité de calcul et de stockage en ajoutant de nouveaux serveurs INCONVENIENTS Pas de requêtes complexes Transactionnel limité (atomicité, cohérence, isolation, durabilité) Apprendre une nouvelle approche de technologie de base de données I. Quelles formes de stockage ? 9 Les différents types de NoSQL I. Quelles formes de stockage ? 10 Les différents types de NoSQL APPLICATIONS : Données semi-persistantes cache, pour conserver les sessions d'un site web stockage pour des files d'attentes, accumuler des événements bruts en vue d'en agréger des statistiques EXEMPLES : Memcached CouchBase Redis I. Quelles formes de stockage ? Les types de NoSQL BigTable et dérivés Clé (ID message) Valeur (destinataire) 11 Tag temps (heure envoie) APPLICATIONS : BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable BD de Twitter sur Cassandra BD de Facebook sur HBase I. Quelles formes de stockage ? Les types de NoSQL BD orientées documents 12 Clé (id document) Valeur (information structurée de manière hiérarchique type XML,JSON) Doc001 {promo:’agrotic2012’, groupe : ’Malek, Nina, Leo’, travail : ’veille techno’, date : ’19/12/2012’, body:’…’,…} APPLICATIONS : Accélérateur de particules du CERN, banque Barclays sur MongoDB Ubuntu One et la banque suisse sur CouchDB Mozilla, AOL sur Riak I. Quelles formes de stockage ? Les types de NoSQL BD orientées graphes Clé Valeur 3 {Statut:’étudiante’, Etat:’souriante’} 103 {label:’enseigne à’} 13 Bruno Id: 1 Statut : enseignant Id: 103 label : enseigne à Nina Id: 2 Statut : étudiante Id: 203 label : est amie avec Malek Id: 3 Statut : étudiante État : souriante APPLICATIONS : Deutsche Telekom et Viadeo sur NEO4J 14 Plan Formes de stockage des données Méthode de traitement Conclusion et perspectives II. Méthode de traitement 15 Une Nouvelle façon d’interroger les données Architecture traditionnelle Architecture BigData Division en clusters à Une méthode de programmation d’analyses en parallèle à Grande quantité de données, traitement à grande vitesse Source: http://static.slidesharecdn.com/ II. Méthode de traitement 16 Le principe en exemple Compter le nombre de lettres contenus dans un fichier Fichier Splitting source Découpage (Base de en blocs données NoSQL) Mapping Fonction d’analyse parallèle Shuffling Tri Reducing Agrégation des informations Résultat A, 3 B, 1 C, 3 D, 2 à Répartition du travail à Efficace sur des tera octets de données II. Méthode de traitement 17 Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfglabs&userName=benjamingans II. Méthode de traitement 18 Projet Apache Open Source II. Méthode de traitement 19 PARALLELISATION DES PROCESSUS Volume de donnée Vitesse de traitement augmentée Les traitements en temps réel Quelques exemples Publicité Transactions financières Gérer des flux de données énormes en temps réel Conclusion: 20 Principes: Travail en parallèle et structuration simplifiée de la donnée. Le Big Data ne s’applique que dans des cas particuliers, pour des besoins particuliers. A quand un BigDat’Agricole? 21 Autres informations: Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le BIG DATA. 1er master en France, ouvre en 2013 à Telecom Paris Tech sur “BIG DATA : gestion et analyse des données massives”. 22 23 Risques: Protection des données à caractères personnelle: Mot de passe, liberté de circulation,géolocalisation des personnes à partir des smartphones (photos et les publications). De contrôle permanent de la pars des autorités. 24 Bibliographie (articles scientifique, conférences, livres, cours…) Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris http://www.digora.com/blog/big-data-connaissez-vous-hadoop/ http://123opendata.com/blog/le-lexique/#ixzz2FOHD8rRn (lexique de l’Open Data) http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999 http://www.telecom-paristech.fr/formation-continue/les-entretiens-detelecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129 http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data http://france.emc.com/microsites/bigdata/index.htm http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf Journal : O’Reilly, article Big Data Now . Edition 2012. Big Data Spectrum, Connect Architecture, Infosis. Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane Fermier. 25 II. Nouveau mode de traitement des flux de données « Stream Processing ». Utilité: permet d’effectuer plus facilement et plus rapidement le calcul parallèle. Pourquoi? § § : Les données en entrée sont trop rapide pour les stocker dans leur intégralités La réponse doit être immédiate. (en temps réel) Quelques exemples. 26 Annexes 27 Annexes