Soutenance Vinci Construction Projet ORIGIN

publicité
CONCILIER DATA SCIENTISTS
ET ENVIRONNEMENT DE PRODUCTION
23 NOVEMBRE 2016
PRÉSENTATION GROUPE JEMS
SI Finance
Fondé
en 2002
310
collaborateurs
Présent à
PARIS
LONDRES
NEW YORK
Business
Intelligence
& Big Data
30 M€
de CA
*prévisions 2016
Infrastructures
NOS PÉRIMÈTRES D’INTERVENTION
DATA
ENGINEER
Meta Data
Enhancement
DatawareHouse Offload
Référentiels
ETL
COLLECTE &
ORGANISATION DE DONNEES
Social Analytics
Connaissance Client
Datavisualisation
Digital Marketing
Modèles prédictifs
ANALYSE &
VALORISATION
INFRASTRUCTURES
Hadoop
Virtualisation
Stockage
DEVELOPPEMENT
& TRAITEMENT
Map Reduce
Spark
Streaming
Machine Learning
DATA
SCIENTIST
L’ARCHITECTURE DATALAKE
DONNÉES RÉFÉRENTIELLES
BESOINS
DATALAKE
------------------------SOURCES EXTERNES
-------------------------
DONNÉES
DONNÉES
BRUTES
DATASETS
ALGORITHME
& CALCUL
API
Rest
STOCKAGE
HISTORISATION
NETTOYAGE / CONSOLIDATION /
SÉMANTISATION / REJETS /
ENRICHISSEMENT META DONNÉES
ENRICHISSEMENT RÉFÉRENTIELS
REQUETAGE
DE DONNEES
AGRÉGATS
CALCULS
+
PORTAIL
VUES
MÉTIERS
Requêtage
ad’hoc
SÉCURISÉ
Requêtage
INTÉGRATION
------------------------SOURCES INTERNES
-------------------------
UTILISATEURS
EXPOSITION DES
Reporting
API
Rest
ODBC
CROISEMENTS
Data Discovery
ALIMENTATION EN BATCH ET/OU EN TEMPS RÉEL
DATAMANAGEMENT (QUALITÉ, TRAÇABILITÉ, GOUVERNANCE)
ZOOM SUR LES VUES MÉTIERS
VUE
MÉTIER
Vue métier
Vision 360°
DATASETS
AGRÉGATS
CALCULS
+
CROISEMENTS
VUE
MÉTIER
Vue Métier Orienté
Datascience
NETTOYAGE / CONSOLIDATION /
SÉMANTISATION / REJETS /
ENRICHISSEMENT META DONNÉES
ENRICHISSEMENT RÉFÉRENTIELS
AGRÉGATS
CALCULS
+
CROISEMENTS
VUE
MÉTIER
AGRÉGATS
CALCULS
CROISEMENTS
+
Fabrication de segments
Edition de fichiers
POSITIONNEMENT DE LA DATASCIENCE
DONNÉES RÉFÉRENTIELLES
BESOINS
DATALAKE
------------------------SOURCES EXTERNES
-------------------------
DONNÉES
DONNÉES
BRUTES
DATASET
ALGORITHME
& CALCUL
API
Rest
STOCKAGE
HISTORISATION
NETTOYAGE / CONSOLIDATION /
SÉMANTISATION / REJETS /
ENRICHISSEMENT META DONNÉES
ENRICHISSEMENT RÉFÉRENTIELS
REQUETAGE
DE DONNEES
AGRÉGATS
CALCULS
+
PORTAIL
VUE
MÉTIER
Requêtage
ad’hoc
SÉCURISÉ
Requêtage
INTÉGRATION
------------------------SOURCES INTERNES
-------------------------
UTILISATEURS
EXPOSITION DES
Reporting
API
Rest
ODBC
CROISEMENTS
Data Discovery
ALIMENTATION EN BATCH ET/OU EN TEMPS RÉEL
DATAMANAGEMENT (QUALITÉ, TRAÇABILITÉ, GOUVERNANCE)
LES BESOINS DES DATASCIENTISTS
 Un environnement analytique et exploratoire : le datalab
 Une approche expérimentale orientée recherche / innovation
 Le DataLab est un vecteur de diffusion de la démarche Big Data au sein des
entreprises
 Les objectifs du datalab

Créer les conditions pour un accès libre aux données afin de favoriser l'innovation
en matière d'analyse

Créer des prototypes et des modèles d'analyse pour expérimenter des données

Offrir une capacité à transformer des données volumineuses en analyse métier
LES DILEMNES DU DATALAB
 Comment libérer l’accès aux données ?
Sans risquer la perte des données
 Comment lancer des traitements d’exploration de données volumineux ?
Sans mettre en péril les traitements de production
 En créant un environnement dédié au datalab
MAIS
 Comment garantir la fraîcheur des données ?
 Comment industrialiser la mise en production des algorithmes ?
IDENTIFIER UN SOCLE COMMUN
A TOUS LES ENVIRONNEMENTS
STOCKAGE /
CALCUL /
REQUÊTAGE
DATA
MANAGEMENT
DATA DISCOVERY
DATA REPORTING
DATALAB
• Data discovery & Advanced Analytics / Transformations
simples / Visualisation / Création de Dataset / algorithmes
 Analyse expérimentale
DEVELOPPEMENT
• Développement / Monitoring / Gestion des erreurs /
Optimisation du code
 Industrialisation
RECETTE / PRE PRODUCTION
• Valider les développements, les résultats et la performance
 Recette & tests
PRODUCTION
• Intégration continue / monitoring des traitements / gestion
des erreurs
 Production
SOCLE TECHNIQUE
STRUCTURANT
FRONT-END
CHOIX DES UTILISATEURS
RÉCUPÉRATION DES DONNÉES FRAÎCHES
Read Only
Read Write
MAJ DES
DONNEES
DATALAB
Données
brutes
Mise à jour
des données
par mirroring des
volumes MapR-FS
(natif)
Pas de
développement
Dataset
Vue
Métier
DEVELOPPEMENT
RECETTE / PRE PRODUCTION
PRODUCTION
Données
brutes
Dataset
Vue
Métier
Espace de travail
LE MIRRORING AVEC MAPR
 Flexible
 Choix des volumes
 Le miroir peut être partiel
 Actif / Actif
 Rapide
 Pas d’impact sur les performances
 Block-level (8KB) deltas
 Compression automatique
 Sécurisé
 Consistance des données
 Facile
 Pas de logiciel complémentaire requis
 Moins de 2 minutes à paramétrer
LES ÉTAPES DE CRÉATION ET
D’INDUSTRIALISATION D’UN ALGORITHME
Identification
des sources
Collecte des
données (si
besoin)
DATASCIENTIST
Création du
code et
algorithme
Optimisation et
industrialisation
Déploiement en
production
DATASCIENTIST
DATAENGINEER
DATAENGINEER
INDUSTRIALISER LES ALGORITHMES
Read Only
Read Write
MAJ DES
DONNEES
Données
brutes
Mise à jour
des données
par mirroring des
volumes MapR-FS
(natif)
ALGORITHME
& CALCUL
DATALAB
Dataset
Vue
Métier
DEVELOPPEMENT
RECETTE / PRE PRODUCTION
Réécriture /
Optimisation /
Industrialisation
Livraison
Industrialisée
Livraison
industrialisée
PRODUCTION
Données
brutes
Espace de travail
Dataset
Vue
Métier
CONCLUSION
 Dédier un environnement pour la datascience
 Assurer de la fraicheur des données sans développement grâce au mirroring
MAPR
 Définir le périmètre de responsabilité du datascientist et du dataengineer en
fonction de leurs compétences
 Mettre en place un outil de data management
 Choisir un outil de data discovery avec les datascientists
Sommaire
QUESTIONS
RÉPONSES
Téléchargement