azure
# 2 0 6
73
programmez! - avril 2017
Il n’est en effet pas possible, pour le moment, de revenir à l’assistant Web
« Copy Activity » des écrans précédents pour éditer le pipeline.
Le dernier problème bloquant de cet assistant est que nous avions plu-
sieurs milliers de « schema mappings » à mettre en œuvre. Impossible
donc de passer plusieurs jours à faire des clics dans le navigateur.
D’autant que nos nombreuses tentatives désespérées mettaient systéma-
tiquement le JavaScript du navigateur sur les rotules (quel que soit le
navigateur). Nous avons eu à développer un programme C# ayant la
capacité de détecter les tables source et générer ces fichiers JSON à par-
tir d’une base source.
Autres possibilités de ADF : Orchestration,
planification et monitoring
La planification de l’heure de lancement du traitement se fait avec le
paramètre offset. A ce jour, une astuce peu documentée que Microsoft
Corp nous a suggérée pour choisir l’heure précise, consiste à configurer
le paramètre start avec systématiquement une valeur à minuit (ci-des-
sous 2017-02-21T00:00:00Z). Sinon le pipeline ne fonctionnera pas.
"policy": {
"timeout": "1.00:00:00",
"concurrency": 1,
"executionPriorityOrder": "NewestFirst",
"style": "StartOfInterval",
"retry": 3,
"longRetry": 0,
"longRetryInterval": "00:00:00"
},
"scheduler": {
"frequency": "Hour",
"interval": 24,
"offset": "03:00:00"
},
"name": "Activity-0-_Custom query_->[dbo]_[xxxxxxxxx]"
],
"start": "2017-02-21T00:00:00Z",
"end": "9999-09-09T00:00:00Z",
"isPaused": false,
"pipelineMode": "Scheduled"
La partie Monitoring d’ADF est très importante et correspond à un de ses
gros points forts, et obligatoire pour faire du « Data Lineage » et ainsi
auditer les données et les nombreux traitements quotidiens. Pour y accé-
der, cliquer l’icône « Surveiller et gérer » (Fig 4), et cela ouvre une nou-
velle fenêtre. Autant dire que nous avons passé des journées entières les
yeux rivés sur les différents pipelines qui s’exécutent, avec des Logs
détaillés.
CONCLUSION
La documentation officielle de Microsoft, ainsi de que nombreuses
recherches, ont bien aidé à avancer et nous sommes actuellement en
production avec ADF. Bien que nous ayons réduit le périmètre de ce
retour d’expérience à l’unique brique ADF (afin que cela soit aisément
compréhensible), cette brique qui semble rapide et simple à appréhen-
der peut se révéler bien plus compliquée qu’il n’y paraît.
Dans notre cas, au-delà de ces petites subtilités, j'avoue que sans l'aide
de l'équipe produit de Microsoft Corp qui développe ADF, nous n'au-
rions pas réussi la mise en production ; depuis, cela fonctionne comme
un charme au quotidien !
•
Références
Introduction ADF :
https://docs.microsoft.com/fr-fr/azure/data-factory/data-factory-introduction
Format JSON d’ADF :
https://docs.microsoft.com/en-us/azure/data-factory/data-factory-introduction
Configurer ADF Gateway sur le réseau local :
https://docs.microsoft.com/fr-fr/azure/data-factory/data-factory-move-data-between-onprem-
and-cloud
Nous avons vu dans cet article un aperçu de l’utilisation d’ADF. Il est légitime de se demander pourquoi faire autant d’efforts ?
alors qu’un ETL comme SSIS est déjà présent sur le marché depuis des années.
POUR ALLER PLUS LOIN
Au-delà du fait que SSIS ne soit pas « scalable »,
ADF va permettre d’adresser des scénarii Big Data
inaccessibles jusqu’à présent.
Dans le schéma, un élément frappant est d’une
part la répartition des zones de stockage, où cela
diffère des traditionnels BI avec un “Staging area”,
un “Operational Data Store” et un “Datawarehouse”
remplies et vidées quotidiennement. D’autre part,
ADF gère une grande variété des sources de don-
nées : les bases de données métier de l’entreprise,
le CRM, l’ERP, mais aussi les réseaux sociaux, les
services Open Data, l’Internet des objets (IoT),
etc… Enfin ADF travaille sur une fréquence des
traitements et une puissance de calculs bien supérieur: les données
sont importées, puis transformés plusieurs fois ; tantôt en (near-)temps
réel (ex IoT), tantôt en batch (ex. calcul d’indicateurs récurrents
chaque soir, ou analyse de sentiments Twitter/Facebook durant le lan-
cement d’un produit).
Afin de répondre aux enjeux actuels de la Data et d’analyses orien-
tées données, Microsoft investit de manière importante dans tous les
outils Data, et en particulier sur cet outil, véritable chef d’orchestre de
la Data au sein du système d’information dématérialisé de l’ « entre-
prise 2.0 » et de l’« Industrie 4.0 » !