
Rôle Concret dans le Pipeline
Outil moderne pour la Transformation (T).
Permet de construire des modèles de
données et d'automatiser les tests de
qualité.
Indispensable pour
industrialiser les
transformations SQL (ELT).
Projets Concrets pour l'Entretien
Ces projets sont conçus pour simuler un pipeline de données complet, de l'extraction à la
consommation, en intégrant les technologies clés.
Projet 1 : Pipeline Météo Quotidien Orchestré (Airflow + API + DW)
Ce projet vous oblige à gérer le temps, les dépendances et la fiabilité.
Source : Une API météo gratuite (ex: OpenWeatherMap).
Pipeline : Un DAG Airflow qui s'exécute chaque nuit.
1. Tâche 1 (Python) : Extrait les données météo de la veille pour 10 grandes
villes, gère la pagination/limite de taux.
2. Tâche 2 (Polars) : Nettoie les données (conversion de types, gestion des
valeurs manquantes).
3. Tâche 3 (SQL) : Charge les données dans une table raw_meteo dans
DuckDB.
Démonstration : Montrez le DAG Airflow, montrez comment il est planifié, et prouvez
que le résultat est bien dans DuckDB.
Projet 2 : Modélisation E-commerce avec dbt (ELT + Qualité)
Ce projet démontre votre capacité à transformer des données brutes en un modèle
analytique propre (le rôle principal du DE).
Source : Un jeu de données de commandes et de clients E-commerce (JSON ou
CSV simulé).
Pipeline :
1. Chargement initial : Utiliser Python pour charger le CSV/JSON brut dans une
table stg_orders dans DuckDB (l'étape EL).
2. Transformation avec dbt :
Créer des modèles pour nettoyer et standardiser les données.
Créer des tables finales de dimensions (ex: dim_customers) et de
faits (ex: fact_sales).
3. Tests de Qualité : Utiliser la fonctionnalité dbt tests pour s'assurer que l'ID
client n'est jamais nul et que le montant de la commande est toujours positif.