Journée Bases de données OSUC Gestion de données avec TALEND Validation et insertion Aurore Hertout Chargée d’études Géomatique & Expertise Spatiale Introduction Présentation Méthodologie Application Conclusion Données thématiques : Nombreuses et variées Différents modes d’acquisition • Continues • Ponctuelles • Autres Nécessaire de mettre en place des processus et des routines pour le traitement de ces données AUTOMATISATION Introduction Présentation Méthodologie Application Conclusion Données thématiques : Nombreuses et variées Différents modes d’acquisition • Continues • Ponctuelles • Autres Nécessaire de mettre en place des processus et des routines pour le traitement de ces données AUTOMATISATION ETL Introduction Présentation Méthodologie Application Conclusion ETL = Extract, Transform, Load Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données Introduction Présentation Méthodologie Application Conclusion ETL = Extract, Transform, Load Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données - intégrer les données dans une base de données Introduction Présentation Méthodologie Application Présentation de Talend • Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL Conclusion Introduction Présentation Méthodologie Application Présentation de Talend • Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL Gestion des données et des bases de données Conclusion Introduction Présentation Méthodologie Application Conclusion Présentation de Talend (interface Job Designer) Définition des paramètres des composants / Exécution Jobs / Routines Composants Introduction Présentation Méthodologie Application Conclusion Présentation de Talend (interface Job Designer) Composants = pas de développement en JAVA TALEND Open Studio -> nécessaire de connaitre le schéma des données Organisation du fichier d’entrée et du fichier de sortie obligatoire Connaissance du formatage des fichiers de données Introduction Présentation Méthodologie Application SO Tourbières et Principasol APPLICATION AUX DONNÉES SCIENTIFIQUES Conclusion Introduction Présentation Méthodologie Données brutes (sites Frasne, La Guette, Landemarais) Traitement (validation) Intégration dans la BDD Principasol Application Conclusion Introduction Présentation Méthodologie Application Conclusion Données de terrain (GSM, relevés, etc.) Fichiers de données (.dat) TALEND Intégration dans la BdD Principasol Validation Expert Publication Introduction Présentation Méthodologie Application Conclusion Données de terrain (GSM, relevés, etc.) Fichiers de données (.dat) TALEND Intégration dans la BdD Principasol Validation Expert Publication Introduction Présentation Méthodologie Application Conclusion TALEND Données validées dans la BdD 𝜎𝑥 = 𝑁 1 �(𝑥𝑥 − 𝑥̅ ) 𝑁−1 𝑖=1 Introduction Présentation Méthodologie Application Conclusion TALEND Données brutes à valider Données validées dans la BdD Min < Valeur < Max Min < Valeur < Max VALIDEE Validation expert requise Introduction Présentation Méthodologie Application Conclusion TALEND Données brutes à valider Données validées dans la BdD Min < Valeur < Max Min < Valeur < Max Intégration dans la BdD Principasol VALIDEE Validation expert requise Introduction Présentation De la théorie à la pratique… Méthodologie Application Conclusion Introduction Présentation De la théorie à la pratique… Méthodologie Application Conclusion Introduction Présentation De la théorie à la pratique… Méthodologie Application Conclusion Introduction Présentation Méthodologie Application Conclusion De la théorie à la pratique… routines.Data_PreTraitement.SiteI d(row3.RH_Avg,row3.Record) Introduction Présentation De la théorie à la pratique… Méthodologie Application Conclusion Introduction Présentation De la théorie à la pratique… Méthodologie Application Conclusion Introduction Présentation Méthodologie Application Conclusion De la théorie à la pratique… Données Routine Checked / Expert validation required Intervalle Max Intervalle Min Routine Unchecked Introduction Présentation De la théorie à la pratique… Méthodologie Application Conclusion Introduction Présentation Méthodologie De la théorie à la pratique… Intégration des données dans différents types de bases de données Application Conclusion Introduction Présentation Méthodologie Application Conclusion Modifications ? Modification des Jobs et des routines Ajout d'un paramètre (+ 1 colonne au fichier de données) → Modification du schéma global à remplacer et à importer dans l'ensemble des jobs Modification d'une unité ou d'un paramètre → Modification dans la routine Traitement_Unite Modification de l'emplacement de la base de données → Modification du composant tMySQLInput, tMySQLConnection, tMySQLOutput dans l'ensemble des jobs Modification de l'ordre des paramètres → Problème de cohérence mais traitement effectué normalement Introduction Présentation Méthodologie Application Conclusion Conclusions et perspectives Talend = Σ d'outils puissants mais complexes => Forums indispensables pour comprendre l'utilisation de certains composants => Communauté de développeurs = amélioration constante des composants SO Tourbières : ETL Talend utilisé et performant pour la gestion des données et l’intégration dans la BdD Principasol Journée Bases de données OSUC 15 janv. 2014 Merci de votre attention Questions ?