L`intégrateur de données Talend

publicité
Journée Bases de données OSUC
Gestion de données avec TALEND
Validation et insertion
Aurore Hertout
Chargée d’études Géomatique
& Expertise Spatiale
Introduction
Présentation
Méthodologie
Application
Conclusion
Données thématiques :
 Nombreuses et variées
 Différents modes d’acquisition
• Continues
• Ponctuelles
• Autres
 Nécessaire de mettre en place des processus et des routines
pour le traitement de ces données  AUTOMATISATION
Introduction
Présentation
Méthodologie
Application
Conclusion
Données thématiques :
 Nombreuses et variées
 Différents modes d’acquisition
• Continues
• Ponctuelles
• Autres
 Nécessaire de mettre en place des processus et des routines
pour le traitement de ces données  AUTOMATISATION
ETL
Introduction
Présentation
Méthodologie
Application
Conclusion
ETL = Extract, Transform, Load
Objectifs :
- intégration de données de tous types et de tous volumes
- unifier les projets
- rendre les fichiers interopérables
- traiter des données
Introduction
Présentation
Méthodologie
Application
Conclusion
ETL = Extract, Transform, Load
Objectifs :
- intégration de données de tous types et de tous volumes
- unifier les projets
- rendre les fichiers interopérables
- traiter des données
- intégrer les données dans une base de données
Introduction
Présentation
Méthodologie
Application
Présentation de Talend
• Talend Open Studio = éditeur de logiciels Open Source
• ETL de type « générateur de code »
• Langage = JAVA ou PERL
Conclusion
Introduction
Présentation
Méthodologie
Application
Présentation de Talend
• Talend Open Studio = éditeur de logiciels Open Source
• ETL de type « générateur de code »
• Langage = JAVA ou PERL
Gestion des données et des bases de données
Conclusion
Introduction
Présentation
Méthodologie
Application
Conclusion
Présentation de Talend (interface Job Designer)
Définition des paramètres des composants
/
Exécution
Jobs / Routines
Composants
Introduction
Présentation
Méthodologie
Application
Conclusion
Présentation de Talend (interface Job Designer)
Composants = pas de développement en JAVA
TALEND Open Studio -> nécessaire de connaitre le schéma des données
 Organisation du fichier d’entrée et du fichier de sortie obligatoire
 Connaissance du formatage des fichiers de données
Introduction
Présentation
Méthodologie
Application
SO Tourbières et Principasol
APPLICATION AUX DONNÉES
SCIENTIFIQUES
Conclusion
Introduction
Présentation
Méthodologie
Données brutes (sites Frasne,
La Guette, Landemarais)
Traitement (validation)
Intégration dans la BDD
Principasol
Application
Conclusion
Introduction
Présentation
Méthodologie
Application
Conclusion
Données de terrain
(GSM, relevés, etc.)
Fichiers de données
(.dat)
TALEND
Intégration dans la
BdD Principasol
Validation Expert
Publication
Introduction
Présentation
Méthodologie
Application
Conclusion
Données de terrain
(GSM, relevés, etc.)
Fichiers de données
(.dat)
TALEND
Intégration dans la
BdD Principasol
Validation Expert
Publication
Introduction
Présentation
Méthodologie
Application
Conclusion
TALEND
Données
validées dans
la BdD
𝜎𝑥 =
𝑁
1
�(𝑥𝑥 − 𝑥̅ )
𝑁−1
𝑖=1
Introduction
Présentation
Méthodologie
Application
Conclusion
TALEND
Données
brutes à
valider
Données
validées dans
la BdD
Min < Valeur < Max
Min < Valeur < Max
VALIDEE
Validation expert
requise
Introduction
Présentation
Méthodologie
Application
Conclusion
TALEND
Données
brutes à
valider
Données
validées dans
la BdD
Min < Valeur < Max
Min < Valeur < Max
Intégration dans la BdD Principasol
VALIDEE
Validation expert
requise
Introduction
Présentation
De la théorie à la pratique…
Méthodologie
Application
Conclusion
Introduction
Présentation
De la théorie à la pratique…
Méthodologie
Application
Conclusion
Introduction
Présentation
De la théorie à la pratique…
Méthodologie
Application
Conclusion
Introduction
Présentation
Méthodologie
Application
Conclusion
De la théorie à la pratique…
routines.Data_PreTraitement.SiteI
d(row3.RH_Avg,row3.Record)
Introduction
Présentation
De la théorie à la pratique…
Méthodologie
Application
Conclusion
Introduction
Présentation
De la théorie à la pratique…
Méthodologie
Application
Conclusion
Introduction
Présentation
Méthodologie
Application
Conclusion
De la théorie à la pratique…
Données
Routine Checked / Expert
validation required
Intervalle Max
Intervalle Min
Routine Unchecked
Introduction
Présentation
De la théorie à la pratique…
Méthodologie
Application
Conclusion
Introduction
Présentation
Méthodologie
De la théorie à la pratique…
Intégration des données dans différents
types de bases de données
Application
Conclusion
Introduction
Présentation
Méthodologie
Application
Conclusion
Modifications ? Modification des Jobs et des routines
Ajout d'un paramètre (+ 1 colonne au fichier de données)
→ Modification du schéma global à remplacer et à importer dans
l'ensemble des jobs
Modification d'une unité ou d'un paramètre
→ Modification dans la routine Traitement_Unite
Modification de l'emplacement de la base de données
→ Modification du composant tMySQLInput, tMySQLConnection,
tMySQLOutput dans l'ensemble des jobs
Modification de l'ordre des paramètres
→ Problème de cohérence mais traitement effectué normalement
Introduction
Présentation
Méthodologie
Application
Conclusion
Conclusions et perspectives
Talend = Σ d'outils puissants mais complexes
=> Forums indispensables pour comprendre l'utilisation de
certains composants
=> Communauté de développeurs = amélioration constante des
composants


SO Tourbières : ETL Talend utilisé et performant pour la
gestion des données et l’intégration dans la BdD Principasol
Journée Bases de données OSUC
15 janv. 2014
Merci de votre attention
Questions ?
Téléchargement