BIG DATA Sommaire Voyages-sncf.com en chiffres Le Big Data chez voyages-sncf.com Une initiative IT L’implémentation technique L’adoption par le marketing C’est … 9 pays couverts et 10 versions du site web 3,3 milliards d’euros de volume d’affaire 60 millions de billets de train vendu par an 1,5 millions de VU par jour 1ière agence de voyages en ligne Une multicanalité forte (web, mobile, réseaux sociaux, TV) 600 collaborateurs Mais aussi … Big Data une initiative IT : des besoins IT Centraliser les logs et les analyses Mesure des performances Filtrage de log Suppression d’une multitude d’outils maisons (shell, batch, …) Soulager le SGBD de certains traitements lourds Big Data une initiative IT : des contraintes 1 To de log généré par jour Besoin d’analyse temps réel de la bonne santé du site Analyse des logs : données non structurées L’implémentation Big Data : exigences Découplage total entre les applications et la solution big data 0 de perte de données 0 SPOF HA à tous les niveaux Scalabilité horizontale facile Contrôle d’accès aux données Durée de conservation des données paramétrable Faibles coûts L’implémentation Big Data : socles • • • • • • • • Log4j / Logback Syslog-ng Flume Hadoop – HDFS (file système distribuer) Hadoop – MapReduce (recherche et traitements parallélisés) MongoDB Play! Hive L’implémentation Big Data : Infra actuelle 2 serveurs de centralisation des logs 10 serveurs Hadoop 6 serveurs MongoDB Serveur x86, 2 CPU 8 core, 32 Go, disques de 600 Go, pas de RAID 80 To de stockage au total L’implémentation Big Data : Points durs Organisationnels – – – – Priorisation du projet Bigdata parmi tous les autres L’adhérence avec les roadmap applicative Méfiance vis-à-vis du couplage avec les applications Résistance des DBA vs les techno NoSQL Techniques – Nombreuses briques techniques – La sécurisation du name node Hadoop L’adoption par le marketing Source : USI 2012 © OCTO 2012 Les démarches d’entreprises “les gens qui ont acheté x ont aussi acheté y » 30% = du CA global de la société en 2009 120 mrd de relation « People you may know » & job matching affichées par jour = 82 jobs Hadoop 16TB de données Autres exemples de démarches Ciblage publicitaire Lutte anti-fraude Analyse d’opinion Analyse multi-facteurs: risques (Banque), Planification (Transports), Pricing (assurances) Analyse prédictive LES OPPORTUNITÉS POUR VSC Les uses cases à l’étude Moteur de recommandation Détection de comportements frauduleux Optimisation des investissements marketing A/B Testing BI temps réel Ciblage publicitaire