L`implémentation Big Data

publicité
BIG DATA
Sommaire

Voyages-sncf.com en chiffres

Le Big Data chez voyages-sncf.com

Une initiative IT

L’implémentation technique

L’adoption par le marketing
C’est …

9 pays couverts et 10 versions du site web

3,3 milliards d’euros de volume d’affaire

60 millions de billets de train vendu par an

1,5 millions de VU par jour

1ière agence de voyages en ligne

Une multicanalité forte (web, mobile, réseaux sociaux, TV)

600 collaborateurs
Mais aussi …
Big Data une initiative IT : des besoins IT
 Centraliser les logs et les analyses
 Mesure des performances
 Filtrage de log
 Suppression d’une multitude d’outils maisons (shell, batch, …)
 Soulager le SGBD de certains traitements lourds
Big Data une initiative IT : des contraintes

1 To de log généré par jour

Besoin d’analyse temps réel de la bonne santé du site

Analyse des logs : données non structurées
L’implémentation Big Data : exigences








Découplage total entre les applications et la solution big data
0 de perte de données
0 SPOF
HA à tous les niveaux
Scalabilité horizontale facile
Contrôle d’accès aux données
Durée de conservation des données paramétrable
Faibles coûts
L’implémentation Big Data : socles
•
•
•
•
•
•
•
•
Log4j / Logback
Syslog-ng
Flume
Hadoop – HDFS (file système distribuer)
Hadoop – MapReduce (recherche et traitements parallélisés)
MongoDB
Play!
Hive
L’implémentation Big Data : Infra actuelle
 2 serveurs de centralisation des logs
 10 serveurs Hadoop
 6 serveurs MongoDB
 Serveur x86, 2 CPU 8 core, 32 Go, disques de 600 Go, pas de
RAID
 80 To de stockage au total
L’implémentation Big Data : Points durs
 Organisationnels
–
–
–
–
Priorisation du projet Bigdata parmi tous les autres
L’adhérence avec les roadmap applicative
Méfiance vis-à-vis du couplage avec les applications
Résistance des DBA vs les techno NoSQL
 Techniques
– Nombreuses briques techniques
– La sécurisation du name node Hadoop
L’adoption par le marketing
Source : USI 2012
© OCTO 2012
Les démarches d’entreprises
“les gens qui ont acheté x ont aussi acheté y »
30%
=
du CA global de la société
en 2009
120 mrd de relation
« People you may know » & job matching
affichées par jour
=
82 jobs Hadoop
16TB
de données
Autres exemples de démarches
 Ciblage publicitaire
 Lutte anti-fraude
 Analyse d’opinion
 Analyse multi-facteurs: risques (Banque), Planification
(Transports), Pricing (assurances)
 Analyse prédictive
LES OPPORTUNITÉS POUR VSC
Les uses cases à l’étude
 Moteur de recommandation
 Détection de comportements frauduleux
 Optimisation des investissements marketing
 A/B Testing
 BI temps réel
 Ciblage publicitaire
Téléchargement