Formation Databricks
1590€ HT / personne |
2 jours (14 heures) |
Présentation
Databricks simplifie votre process Big Data. Cette plateforme créée par les fondateurs d’Apache Spark rend plus sûr le déroulement du processus ETL.
En effet, Databricks utilise l’architecture d’Apache Spark en y ajoutant des pipelines fiables et puissants. L’outil fournit une gestion automatisée des clusters et des notebooks de style IPython.
Les pipelines de données peuvent être écrits dans de nombreux langages (Scala, SQL, R, Python) conçus dans des workspaces collaboratifs.
Databricks est également rigoureusement sécurisé grâce à un modèle de protection unifié comportant toutes les fonctionnalités (gestion des identités, cryptage…).
Notre formation Databricks vous présentera comment élaborer un processus ETL complet. Nous commencerons par la présentation du système, puis, l’extraction des données, leurs chargements, leurs transformations et enfin nous évoquerons les dashboards et l’utilisation d’IntelliJ IDE.
Comme toujours, nous vous présenterons la dernière version de l’outil, Databricks 15.4.
Objectifs
- Bien connaître les spécificités de Databricks
- Extraire les données avec Databricks
- Savoir comment transformer et charger ses données
- Utiliser les dashboards et déployer son processus
Public visé
- Développeurs
- Data Engineer
- Architectes
- Administrateurs système
- Data miners
- Data scientists
- Data analysts
- Business intelligence analysts
- Market inteligence analysts
Pré-requis
- Avoir idéalement suivi nos formations Spark ML ou Spark Tuning Avancé
- Connaissance de Scala, SQL et idéalement Python
- Disposer d’un compte Databricks
Programme de la formation Databricks
Introduction
- Présentation de l’outil
- Pourquoi utiliser Databricks?
- Databricks vs Apache Spark
- Présentation de l’interface
- Les notebooks
- Créer un cluster et une table
- Créer des jobs
- Créer un pool
Extraire ses données
- Importer ses données
- Ajouter des schemas
- Gérer les tables avec SQL
- Utiliser Python sur Databricks
Transformer ses données
- Transformer ses données avec Scala
- Manipulation de données avec Spark SQL
- Modification de données avec Python
- Utiliser l’API DataFrame
Charger ses données
- Le fichier nested XML
- Le fichier nested json
- Les tables DELTA
Dashboard et déploiement du processus
- Présentation du Dashboard
- Développer un job pour rafraichir le dashboard
- Créer un projet avec IntelliJ IDE
- Créer son application
- Ajouter des dépendances
- Externaliser les propriétés
- Envoyer les jobs
Pour aller plus loin
Azure Databricks
Formation Azure Data Factory
Formation Spark Streaming
Formation Spark Tuning Avancé
Formation Spark et Machine Learning
Formation Kibana
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Témoignages
Les + : Beaucoup de pratiques et possibilité de faire des cas d’usage particulier pour comprendre le sujet.
Les – : Le sujet semble bien plus vaste et finalement on se cantone au contenu de la formation. Le formateur s’est donner la liberté de répondre malgré tout à nos questions.
Afficher tous les témoignages
Les + : Beaucoup de pratiques et possibilité de faire des cas d’usage particulier pour comprendre le sujet.
Les – : Le sujet semble bien plus vaste et finalement on se cantone au contenu de la formation. Le formateur s’est donner la liberté de répondre malgré tout à nos questions.
Je recommande la formation
Je recommande la formation
Les – : le ratio densité / jours de formation
Je recommande la formation
Les + : cadre, locaux et intervenant très investie durant tout le long de la formation.
Je souhaite suivre : Mlops, développement avancée Spark.
Les + : Nouvelle technologie très intéressante.
Les – : La durée est courte pour le programme et il n’y a pas assez de pratique/ On a pas eu le temps de pratiquer.
Je souhaite suivre : Spark avancé
Les + : compléte et d’actualité
Les – : période courte pour voir tous les concepts, pas le temps pour tous tester
Je souhaite suivre : spark/scala/MLOps
Les + : Panorama très complet de Databricks
Les – : Formation très dense
Les + : clarté du formateur
Les – : Planning un chargé (vers la fin de la formation)
Les + : Bonne présentation de Data-bricks.
Les – : Le programme est trop chargé pour tenir en deux jours, et le temps manque pour véritablement développer une pratique individuelle.
Noter la formation
1590€ HT / personne |
2 jours (14 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS