Analyse de données massives chez Criteo : la mise à l'échelle de la data visualisation avec Tableau Big Data Paris – 10 Mars 2015 Copyright © 2015 Criteo Speaker Damien Lesage, BI Analyst Analytics Infrastructure Copyright © 2015 Criteo Agenda • Deux mots sur Criteo • Pourquoi Tableau ? • Tableau chez Criteo : à quoi cela ressemble ? Copyright © 2015 Criteo 2 mots sur Criteo Copyright © 2015 Criteo Criteo en 2 mots • Publicité en temps-réel… • …basée sur la performance… • …à grande échelle. La performance est primordiale. Copyright © 2015 Criteo $430b sales transactions analyzed in 2014 741b+ ads served in 2014 +1 Bn internet users reached monthly1 $19bn post-click client sales generated2 1300+ EMPLOYEES 9,000+ PUBLISHERS (Exchange & Premium) 7,000+ ADVERTISERS 130+ 24 COUNTRIES OFFICES 80+ ANALYSTS 1: 2nd in ComScore global rankings - Dec 2014 ComScore report 2: in 12 months preceding Dec 31, 2014Criteo Copyright © 2015 Pourquoi Tableau ? Copyright © 2015 Criteo Un outil avant tout destiné aux analystes… • Production des tableaux de bord par les analystes • Proximité avec les équipes commerciales et produits Copyright © 2015 Criteo …mais qui peut s’intégrer à notre infrastructure • Une base de données avec une très grosse volumétrie • Connexion en direct aux données • Authentification des utilisateurs • Restrictions de l’accès aux données Copyright © 2015 Criteo A quoi cela ressemble ? Copyright © 2015 Criteo Déroulement du projet : les préliminaires • Début de la migration des données analytiques dans Hadoop • Installation du cluster HP Vertica • Évaluation des outils de reporting • Augmentation du nombre de licences Tableau Desktop déployées Fin 2012 Mi-2013 Début 2013 Fin 2013 • Toutes les données analytiques sont disponibles dans Hadoop / Hive • Le datamart est disponible dans Vertica, avec des événements bruts (impressions, clics) et des agrégats • Premières licences Tableau Desktop attribuées • Phase de POC de Tableau Server Copyright © 2015 Criteo Déroulement du projet : la consolidation • Déploiement initial de Tableau Server en production : • 12 cœurs CPU • 32 Go RAM • Sessions One-to-One sur Tableau Desktop • Amélioration du monitoring Début 2014 Fin 2014 • Diffusion de bonnes pratiques Mi-2014 Début 2015 • Migration de serveur : • 24 cœurs CPU • 96 Go RAM • Augmentation du nombre de nœuds sur le cluster Vertica • Formation Tableau Desktop • Documentation • Extractions sur Hadoop Copyright © 2015 Criteo Analytics infrastructure • Stockage des données brutes • Transformation 60 Mds d’événements / jour Soit 20 To / jour • Données structurées • Agrégats 49 nœuds | ≈ 50 To ≈ 10 Mds lignes / jour ≈ 100k requêtes / jour Extractions Copyright © 2015 Criteo • Analyse / Tableaux de bord • Connexion directe • Extraits de données 80+ Analystes 800+ utilisateurs Tableau à Criteo : une utilisation en croissance Environ Environ 4 000 vues / jour 400 utilisateurs / jour Copyright © 2015 Criteo Et après ? • Migration vers un environnement plus performant • Mise à jour vers Tableau 9 • Plus d’externalisation de processus (extraits, souscriptions email) • Système de revue avant le passage en production • Test de Impala / Presto / Spark • Des formations, encore des formations… Copyright © 2015 Criteo Nous recrutons ! Copyright © 2015 Criteo Questions ? [email protected] Copyright © 2015 Criteo