CONCILIER DATA SCIENTISTS ET ENVIRONNEMENT DE PRODUCTION 23 NOVEMBRE 2016 PRÉSENTATION GROUPE JEMS SI Finance Fondé en 2002 310 collaborateurs Présent à PARIS LONDRES NEW YORK Business Intelligence & Big Data 30 M€ de CA *prévisions 2016 Infrastructures NOS PÉRIMÈTRES D’INTERVENTION DATA ENGINEER Meta Data Enhancement DatawareHouse Offload Référentiels ETL COLLECTE & ORGANISATION DE DONNEES Social Analytics Connaissance Client Datavisualisation Digital Marketing Modèles prédictifs ANALYSE & VALORISATION INFRASTRUCTURES Hadoop Virtualisation Stockage DEVELOPPEMENT & TRAITEMENT Map Reduce Spark Streaming Machine Learning DATA SCIENTIST L’ARCHITECTURE DATALAKE DONNÉES RÉFÉRENTIELLES BESOINS DATALAKE ------------------------SOURCES EXTERNES ------------------------- DONNÉES DONNÉES BRUTES DATASETS ALGORITHME & CALCUL API Rest STOCKAGE HISTORISATION NETTOYAGE / CONSOLIDATION / SÉMANTISATION / REJETS / ENRICHISSEMENT META DONNÉES ENRICHISSEMENT RÉFÉRENTIELS REQUETAGE DE DONNEES AGRÉGATS CALCULS + PORTAIL VUES MÉTIERS Requêtage ad’hoc SÉCURISÉ Requêtage INTÉGRATION ------------------------SOURCES INTERNES ------------------------- UTILISATEURS EXPOSITION DES Reporting API Rest ODBC CROISEMENTS Data Discovery ALIMENTATION EN BATCH ET/OU EN TEMPS RÉEL DATAMANAGEMENT (QUALITÉ, TRAÇABILITÉ, GOUVERNANCE) ZOOM SUR LES VUES MÉTIERS VUE MÉTIER Vue métier Vision 360° DATASETS AGRÉGATS CALCULS + CROISEMENTS VUE MÉTIER Vue Métier Orienté Datascience NETTOYAGE / CONSOLIDATION / SÉMANTISATION / REJETS / ENRICHISSEMENT META DONNÉES ENRICHISSEMENT RÉFÉRENTIELS AGRÉGATS CALCULS + CROISEMENTS VUE MÉTIER AGRÉGATS CALCULS CROISEMENTS + Fabrication de segments Edition de fichiers POSITIONNEMENT DE LA DATASCIENCE DONNÉES RÉFÉRENTIELLES BESOINS DATALAKE ------------------------SOURCES EXTERNES ------------------------- DONNÉES DONNÉES BRUTES DATASET ALGORITHME & CALCUL API Rest STOCKAGE HISTORISATION NETTOYAGE / CONSOLIDATION / SÉMANTISATION / REJETS / ENRICHISSEMENT META DONNÉES ENRICHISSEMENT RÉFÉRENTIELS REQUETAGE DE DONNEES AGRÉGATS CALCULS + PORTAIL VUE MÉTIER Requêtage ad’hoc SÉCURISÉ Requêtage INTÉGRATION ------------------------SOURCES INTERNES ------------------------- UTILISATEURS EXPOSITION DES Reporting API Rest ODBC CROISEMENTS Data Discovery ALIMENTATION EN BATCH ET/OU EN TEMPS RÉEL DATAMANAGEMENT (QUALITÉ, TRAÇABILITÉ, GOUVERNANCE) LES BESOINS DES DATASCIENTISTS Un environnement analytique et exploratoire : le datalab Une approche expérimentale orientée recherche / innovation Le DataLab est un vecteur de diffusion de la démarche Big Data au sein des entreprises Les objectifs du datalab Créer les conditions pour un accès libre aux données afin de favoriser l'innovation en matière d'analyse Créer des prototypes et des modèles d'analyse pour expérimenter des données Offrir une capacité à transformer des données volumineuses en analyse métier LES DILEMNES DU DATALAB Comment libérer l’accès aux données ? Sans risquer la perte des données Comment lancer des traitements d’exploration de données volumineux ? Sans mettre en péril les traitements de production En créant un environnement dédié au datalab MAIS Comment garantir la fraîcheur des données ? Comment industrialiser la mise en production des algorithmes ? IDENTIFIER UN SOCLE COMMUN A TOUS LES ENVIRONNEMENTS STOCKAGE / CALCUL / REQUÊTAGE DATA MANAGEMENT DATA DISCOVERY DATA REPORTING DATALAB • Data discovery & Advanced Analytics / Transformations simples / Visualisation / Création de Dataset / algorithmes Analyse expérimentale DEVELOPPEMENT • Développement / Monitoring / Gestion des erreurs / Optimisation du code Industrialisation RECETTE / PRE PRODUCTION • Valider les développements, les résultats et la performance Recette & tests PRODUCTION • Intégration continue / monitoring des traitements / gestion des erreurs Production SOCLE TECHNIQUE STRUCTURANT FRONT-END CHOIX DES UTILISATEURS RÉCUPÉRATION DES DONNÉES FRAÎCHES Read Only Read Write MAJ DES DONNEES DATALAB Données brutes Mise à jour des données par mirroring des volumes MapR-FS (natif) Pas de développement Dataset Vue Métier DEVELOPPEMENT RECETTE / PRE PRODUCTION PRODUCTION Données brutes Dataset Vue Métier Espace de travail LE MIRRORING AVEC MAPR Flexible Choix des volumes Le miroir peut être partiel Actif / Actif Rapide Pas d’impact sur les performances Block-level (8KB) deltas Compression automatique Sécurisé Consistance des données Facile Pas de logiciel complémentaire requis Moins de 2 minutes à paramétrer LES ÉTAPES DE CRÉATION ET D’INDUSTRIALISATION D’UN ALGORITHME Identification des sources Collecte des données (si besoin) DATASCIENTIST Création du code et algorithme Optimisation et industrialisation Déploiement en production DATASCIENTIST DATAENGINEER DATAENGINEER INDUSTRIALISER LES ALGORITHMES Read Only Read Write MAJ DES DONNEES Données brutes Mise à jour des données par mirroring des volumes MapR-FS (natif) ALGORITHME & CALCUL DATALAB Dataset Vue Métier DEVELOPPEMENT RECETTE / PRE PRODUCTION Réécriture / Optimisation / Industrialisation Livraison Industrialisée Livraison industrialisée PRODUCTION Données brutes Espace de travail Dataset Vue Métier CONCLUSION Dédier un environnement pour la datascience Assurer de la fraicheur des données sans développement grâce au mirroring MAPR Définir le périmètre de responsabilité du datascientist et du dataengineer en fonction de leurs compétences Mettre en place un outil de data management Choisir un outil de data discovery avec les datascientists Sommaire QUESTIONS RÉPONSES