Formation dbt : Le workflow d’Airflow
1790€ HT / personne |
2 jours (14 heures) |
Présentation
Depuis quelques années, dbt (data build tool) est devenu un outil incontournable dans les architectures data modernes. Gratuit, open source et pensé pour le cloud, il permet aux équipes analytiques de s’inspirer des pratiques de l’ingénierie logicielle afin de rapidement déployer des pipelines de données.
Durant ce cours, vous mettrez en place un environnement de développement spécifique à dbt, ce qui vous permettra de développer et de tester vos premiers modèles.
Vous verrez également comment dbt s’intègre dans les architectures data actuelles, et quelles sont les problématiques auxquelles cet outil peut répondre.
À la suite de cette formation, vous saurez tout des fonctionnalités principales de dbt ainsi que des différentes manières de l’utiliser en production, notamment en utilisant Airflow et Kubernetes. Comme toutes nos formations, celle-ci vous présentera la dernière version en date et ses nouveautés : dbt Core v1.8.
Objectifs
- Mettre en place un projet en partant de zéro
- Savoir utiliser et paramétrer l’IDE dbt
- Savoir déployer une production avec dbt
- Tester et documenter un modèle
- Intérioriser les bonnes pratiques
Public visé
- Data Scientists
- Data Analysts
- Chefs de projet
- Ingénieurs de données
- Business Analysts
PRÉ-REQUIS
- Connaissance des pipelines de données
- Savoir utiliser Docker
- Connaissance de python
PRÉ-REQUIS techniques
- Avoir un compte Gmail
- Avoir un compte Github (lié au compte Gmail)
- Python 3 et Git installés
- Docker et Docker Compose installés
- Un logiciel d’édition de code (ex : Visual Studio)
- Omyzsh
Programme de notre formation dbt
Introduction
- Qu’est-ce que dbt ?
- ETL et ELT : les différences
- dbt Core vs dbt Cloud
- Le rôle de dbt au sein du Modern Data Stack
- Qu’est-ce que n’est pas dbt ?
- Data Warehousing: Data Lakes, Data Warehouses, Data Lakehouse
Mise en place de l’environnement dbt
- Création de l’environnement virtuel Python
- Installation de dbt Core et du plugin adéquat
- Connexion de dbt à l’entrepôt de données
- Fichiers de paramétrage YAML
- Bonnes pratiques en matière de structure de projet : raw data, staging, etc.
Modèles : Développements et tests
- Développement de modèles basiques
- Organisation d’un data warehouse
- Configuration des modèles : schéma, matérialisation, etc.
- Introduction aux différentes commandes dbt et aux flags possibles
- Mise en place des tests et des vérifications de résultats
Modèles : Configurations avancées
- Utilisation des sources et vérification de la freshness
- Ingestion de fichiers plats dans dbt : les seeds et leur utilité
- Matérialisation incrémentale : en append ou en update
- Macros, hooks
- Snapshots
La documentation dans dbt
- Présentation de la documentation au format dbt
- La commande dbt docs et ses différentes utilisations
- Test types: format (ex: generic, singular) + qualitative (ex: structurel, relationnel)
- Test exemples
- Bonnes pratiques en matière de documentation : utilisation de la syntaxe Jinja
- DBT docs et lineage
Les packages
- Le Package Hub
- dbt_utils
- codegen
- re_data
Dbt en production
- Intégration et développement continus (CI/CD)
- Orchestration de dbt à l’aide d’Apache Airflow : BashOperator, KubernetesPodOperator
- Présentation des différentes manières d’exécuter les projets
- Jobs scheduling
- DBT cloud
- Airflow
Pour aller plus loin
Formation Power BI
Formation Apache Airflow
Formation Qlik Sense
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Le(s) Formateur(s)
Flavien
Arnaud
Témoignages
Les + : Formateur à l’écoute et capable de répondre à des questions qui s’éloignent de la théorie présentée. Bon aperçu global des bases de DBT
Les – : J’aurais aimé aller plus en profondeur sur certains sujets comme l’orchestration par exemple mais j’ai conscience que 2 jours ne suffisent pas pour aborder tous les sujets.
Afficher tous les témoignages
Les + : Formateur à l’écoute et capable de répondre à des questions qui s’éloignent de la théorie présentée. Bon aperçu global des bases de DBT
Les – : J’aurais aimé aller plus en profondeur sur certains sujets comme l’orchestration par exemple mais j’ai conscience que 2 jours ne suffisent pas pour aborder tous les sujets.
Les + : Le formateur !
Je recommande la formation
Les + : Arnaud est disponible et compétent
Les – : Je pense qu’il faudrait revoir la formation afin qu’elle soi plus guidée : un petit exo après chaque nouveau point serait le bienvenu. j’ai trouvé que nous avions vu un peu de théorie ensuite on pratiquait directement en autonomie.
Je recommande la formation
Les + : Les réponses aux questions orientées fortement sur des problématiques rencontrées chez nos clients.
Je recommande la formation
Je souhaite suivre : Airflow
Kubernetes
En synthèse : Outil intéressant
Explications claires
Je recommande la formation
Les + : La partie pratique qui est très importantes
Les – : pas de points faibles très marquants
Je souhaite suivre : Apache Spark
Je recommande la formation
Je recommande la formation
Navigation Site Reviews
Noter la formation
1790€ HT / personne |
2 jours (14 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS