Tableau à Criteo

publicité
Analyse de données massives chez Criteo : la mise à
l'échelle de la data visualisation avec Tableau
Big Data Paris – 10 Mars 2015
Copyright © 2015 Criteo
Speaker
Damien Lesage, BI Analyst
Analytics Infrastructure
Copyright © 2015 Criteo
Agenda
• Deux mots sur Criteo
• Pourquoi Tableau ?
• Tableau chez Criteo : à quoi cela ressemble ?
Copyright © 2015 Criteo
2 mots sur Criteo
Copyright © 2015 Criteo
Criteo en 2 mots
• Publicité en temps-réel…
• …basée sur la performance…
• …à grande échelle.
La performance est
primordiale.
Copyright © 2015 Criteo
$430b sales
transactions
analyzed in 2014
741b+ ads
served in 2014
+1 Bn internet
users reached
monthly1
$19bn post-click
client sales
generated2
1300+
EMPLOYEES
9,000+
PUBLISHERS
(Exchange & Premium)
7,000+
ADVERTISERS
130+
24
COUNTRIES
OFFICES
80+
ANALYSTS
1: 2nd in ComScore global rankings - Dec 2014 ComScore report
2: in 12 months preceding
Dec 31,
2014Criteo
Copyright
© 2015
Pourquoi Tableau ?
Copyright © 2015 Criteo
Un outil avant tout destiné aux analystes…
• Production des tableaux de bord par les
analystes
• Proximité avec les équipes commerciales
et produits
Copyright © 2015 Criteo
…mais qui peut s’intégrer à notre infrastructure
• Une base de données avec une
très grosse volumétrie
• Connexion en direct aux données
• Authentification des utilisateurs
• Restrictions de l’accès aux
données
Copyright © 2015 Criteo
A quoi cela ressemble ?
Copyright © 2015 Criteo
Déroulement du projet : les préliminaires
• Début de la migration des données analytiques
dans Hadoop
• Installation du cluster HP Vertica
• Évaluation des outils de reporting
• Augmentation du nombre de licences Tableau
Desktop déployées
Fin 2012
Mi-2013
Début 2013
Fin 2013
• Toutes les données analytiques sont
disponibles dans Hadoop / Hive
• Le datamart est disponible dans Vertica, avec
des événements bruts (impressions, clics) et
des agrégats
• Premières licences Tableau Desktop attribuées
• Phase de POC de Tableau Server
Copyright © 2015 Criteo
Déroulement du projet : la consolidation
• Déploiement initial de Tableau Server en
production :
• 12 cœurs CPU
• 32 Go RAM
• Sessions One-to-One sur Tableau Desktop
• Amélioration du monitoring
Début 2014
Fin 2014
• Diffusion de bonnes pratiques
Mi-2014
Début 2015
• Migration de serveur :
• 24 cœurs CPU
• 96 Go RAM
• Augmentation du nombre de nœuds sur le
cluster Vertica
• Formation Tableau Desktop
• Documentation
• Extractions sur Hadoop
Copyright © 2015 Criteo
Analytics infrastructure
• Stockage des données
brutes
• Transformation
 60 Mds d’événements / jour
 Soit 20 To / jour
• Données structurées
• Agrégats
 49 nœuds | ≈ 50 To
 ≈ 10 Mds lignes / jour
 ≈ 100k requêtes / jour
Extractions
Copyright © 2015 Criteo
• Analyse / Tableaux de bord
• Connexion directe
• Extraits de données
 80+ Analystes
 800+ utilisateurs
Tableau à Criteo : une utilisation en croissance
Environ
Environ
4 000 vues / jour
400 utilisateurs / jour
Copyright © 2015 Criteo
Et après ?
• Migration vers un environnement plus performant
• Mise à jour vers Tableau 9
• Plus d’externalisation de processus (extraits, souscriptions email)
• Système de revue avant le passage en production
• Test de Impala / Presto / Spark
• Des formations, encore des formations…
Copyright © 2015 Criteo
Nous recrutons !
Copyright © 2015 Criteo
Questions ?
[email protected]
Copyright © 2015 Criteo
Téléchargement