Sélectionner une page
Formations Data ETL Formation DBT : Workflow avec Airflow

Formation dbt : Le workflow d’Airflow

formation dbt
Prix 1790€ HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Depuis quelques années, dbt (data build tool) est devenu un outil incontournable dans les architectures data modernes. Gratuit, open source et pensé pour le cloud, il permet aux équipes analytiques de s’inspirer des pratiques de l’ingénierie logicielle afin de rapidement déployer des pipelines de données.

Durant ce cours, vous mettrez en place un environnement de développement spécifique à dbt, ce qui vous permettra de développer et de tester vos premiers modèles.

Vous verrez également comment dbt s’intègre dans les architectures data actuelles, et quelles sont les problématiques auxquelles cet outil peut répondre.

À la suite de cette formation, vous saurez tout des fonctionnalités principales de dbt ainsi que des différentes manières de l’utiliser en production, notamment en utilisant Airflow et Kubernetes. Comme toutes nos formations, celle-ci vous présentera la dernière version en date et ses nouveautés : dbt Core v1.8.

 

Objectifs

  • Mettre en place un projet en partant de zéro
  • Savoir utiliser et paramétrer l’IDE dbt
  • Savoir déployer une production avec dbt
  • Tester et documenter un modèle
  • Intérioriser les bonnes pratiques

 

Public visé

  • Data Scientists
  • Data Analysts
  • Chefs de projet
  • Ingénieurs de données
  • Business Analysts

 

PRÉ-REQUIS

  • Connaissance des pipelines de données
  • Savoir utiliser Docker
  • Connaissance de python

 

PRÉ-REQUIS techniques

  • Avoir un compte Gmail
  • Avoir un compte Github (lié au compte Gmail)
  • Python 3 et Git installés
  • Docker et Docker Compose installés
  • Un logiciel d’édition de code (ex : Visual Studio)
  • Omyzsh

Programme de notre formation dbt

 

Introduction

  • Qu’est-ce que dbt ?
  • ETL et ELT : les différences
  • dbt Core vs dbt Cloud
  • Le rôle de dbt au sein du Modern Data Stack
  • Qu’est-ce que n’est pas dbt ?
  • Data Warehousing: Data Lakes, Data Warehouses, Data Lakehouse

 

Mise en place de l’environnement dbt

  • Création de l’environnement virtuel Python
  • Installation de dbt Core et du plugin adéquat
  • Connexion de dbt à l’entrepôt de données
  • Fichiers de paramétrage YAML
  • Bonnes pratiques en matière de structure de projet : raw data, staging, etc.

 

Modèles : Développements et tests

  • Développement de modèles basiques
  • Organisation d’un data warehouse
  • Configuration des modèles : schéma, matérialisation, etc.
  • Introduction aux différentes commandes dbt et aux flags possibles
  • Mise en place des tests et des vérifications de résultats

 

Modèles : Configurations avancées

  • Utilisation des sources et vérification de la freshness
  • Ingestion de fichiers plats dans dbt : les seeds et leur utilité
  • Matérialisation incrémentale : en append ou en update
  • Macros, hooks
  • Snapshots

 

La documentation dans dbt

  • Présentation de la documentation au format dbt
  • La commande dbt docs et ses différentes utilisations
  • Test types: format (ex: generic, singular) + qualitative (ex: structurel, relationnel)
  • Test exemples
  • Bonnes pratiques en matière de documentation : utilisation de la syntaxe Jinja
  • DBT docs et lineage

 

Les packages

  • Le Package Hub
    • dbt_utils
    • codegen
    • re_data

 

Dbt en production

  • Intégration et développement continus (CI/CD)
  • Orchestration de dbt à l’aide d’Apache Airflow : BashOperator, KubernetesPodOperator
  • Présentation des différentes manières d’exécuter les projets
  • Jobs scheduling
    • DBT cloud
    • Airflow

Pour aller plus loin

Formation Power BI

Formation Apache Airflow

Formation Qlik Sense

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Le(s) Formateur(s)

Flavien

Flavien

Flavien est expert en modélisation et développement de pipeline de données. Il est actuellement en poste chez Ankorstore en analytics engineering. Communicateur efficace et soucieux de travailler en équipe, il anime également des formations sur divers outils de la modern data stack tels que dbt, GCP et divers outils ETL
Arnaud

Arnaud

Après quatre ans dans le conseil, je travaille aujourd’hui en tant que Data Analyst. Passionné par tout ce qui concerne la Modern Data Stack. J’utilise quotidiennement dbt.

Témoignages

23 octobre 2024

Les + : Formateur à l’écoute et capable de répondre à des questions qui s’éloignent de la théorie présentée. Bon aperçu global des bases de DBT

Les – : J’aurais aimé aller plus en profondeur sur certains sujets comme l’orchestration par exemple mais j’ai conscience que 2 jours ne suffisent pas pour aborder tous les sujets.

Julien L. de chez ACSSI TECHNOLOGIES

Afficher tous les témoignages

23 octobre 2024

Les + : Formateur à l’écoute et capable de répondre à des questions qui s’éloignent de la théorie présentée. Bon aperçu global des bases de DBT

Les – : J’aurais aimé aller plus en profondeur sur certains sujets comme l’orchestration par exemple mais j’ai conscience que 2 jours ne suffisent pas pour aborder tous les sujets.

Julien L. de chez ACSSI TECHNOLOGIES
23 octobre 2024

Les + : Le formateur !

Romain M. de chez ACSSI TECHNOLOGIES
23 octobre 2024

Je recommande la formation

Mathias M. de chez ACSSI TECHNOLOGIES
23 octobre 2024

Les + : Arnaud est disponible et compétent

Les – : Je pense qu’il faudrait revoir la formation afin qu’elle soi plus guidée : un petit exo après chaque nouveau point serait le bienvenu. j’ai trouvé que nous avions vu un peu de théorie ensuite on pratiquait directement en autonomie.

Valentin B. de chez ACSSI TECHNOLOGIES
23 octobre 2024

Je recommande la formation

Hugues Gautier T. de chez ACSSI TECHNOLOGIES
23 octobre 2024

Les + : Les réponses aux questions orientées fortement sur des problématiques rencontrées chez nos clients.

Julien s. de chez
23 octobre 2024

Je recommande la formation

PAUL W. de chez ACSSI TECHNOLOGIES
12 septembre 2024

Je souhaite suivre : Airflow

Kubernetes

En synthèse : Outil intéressant

Explications claires

Amadou D. de chez EPSILON FRANCE
12 septembre 2024

Je recommande la formation

Su L. de chez EPSILON FRANCE
12 septembre 2024

Les + : La partie pratique qui est très importantes

Les – : pas de points faibles très marquants

Je souhaite suivre : Apache Spark

Oussama M. de chez EPSILON FRANCE
12 septembre 2024

Je recommande la formation

Mohamed Taieb R. de chez EPSILON FRANCE
12 septembre 2024

Je recommande la formation

Nazih A. de chez EPSILON FRANCE

Noter la formation

Prix 1790€ HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp