Formation PySpark : traitez rapidement vos données en masse
1980€ HT / personne |
3 jours (21 heures) |
Présentation
Notre formation PySpark vous apprendra à manipuler rapidement un grand volume de données, bénéficiez de la puissance de l’API de Python pour maîtriser Apache Spark.
Notre formation se compose en différents modules nécessaires pour comprendre l’écosystème d’Apache Spark et l’utilisation de PySpark. En effet, nous débuterons par une présentation d’Hadoop (son architecture et ses composants). Ensuite, nous vous guiderons sur l’installation de ce framework Big Data ainsi que la configuration de PySpark.
Vous découvrirez comment utiliser l’API de Python sur Spark pour manipuler vos données, ainsi, vous maitriserez l’intégralité de votre processus ETL (extraction, chargement et transformation des données). De plus, un module est dédié à l’utilisation de Pandas pour approfondir l’utilisation de l’outil. Vous saurez également utiliser Spark pour le machine learning, Spark Streaming et évidemment Spark SQL.
Notre formation vous présentera la dernière version d’Apache Spark, Spark 4.0.
Objectifs
- Comprendre le rôle d’Hadoop et de Spark dans le Big Data.
- Maîtriser l’architecture et le fonctionnement d’Hadoop
- Installer et interagir avec Spark
- Utiliser Spark SQL pour manipuler les DataFrames
- Appliquer PySpark et Pandas pour la manipulation de données
Public visé
- Data analysts
- Data scientists
- Data engineers
- Développeurs
Pré-requis
- Connaissances en SQL
- Connaissances de base en mathématiques et statistiques
- Connaissances de base de Python
Programme de notre formation PySpark
Présentation d’Hadoop
- Qu’est-ce qu’Hadoop ?
- Son rôle dans le Big Data
- Présentation de son architecture
- Comment Hadoop fonctionne ?
- Les modules principaux
- HDFS
- YARN
- MapReduce
- Hadoop Common
Présentation de Spark
- Spark vs Hadoop
- Les différences avec MapReduce
- Pourquoi utiliser Spark ?
- Les fonctionnalités
- MLlib
- Streaming
- SQL
- GraphX
- Comment fonctionne Spark ?
- Les ensembles de données
- RDD
- DataFrames
- Data Sets
Comment installer Spark ?
- En local
- Sur une infrastructure distribuée
- Sur le Cloud
- Première interaction avec Spark
Spark SQL
- Introduction à Spark SQL
- Création de DataFrames
- Manipulation des DataFrames
- Chargement des données
- Stockage des données
- Différences entre l’API SQL et l’API dataframe
- Explication du fonctionnement de catalyst, et outils de diagnostique et debugging.
Utiliser PySpark
- Présentation de PySpark
- Utilisation de SparkSQL pour manipuler des données
- Charger des données de différents formats
- Transformer ses données
- TP : Chargement et transformation de données avec PySpark
L’API Pandas
- Installer Pandas
- Transform et apply
- Comment les types de données changent ?
- Les hints
- Les bonnes pratiques de développement
Spark.ml
- Apprentissage supervisé
- Random trees
- Créer des recommandations personnalisées
- Traitement de données textuelles
- Automatiser ses analyses avec des pipelines
Spark Streaming
- DStream
- Les sources de données
- Utiliser l’API
- Modifier des données
Troubleshooting
- Exceptions liées à l’absence de mémoire
- Échec répété de la tâche Spark
- Échec de la commande Spark Shell
- FileAlreadyExistsException
- Erreur « Too Large Frame »
- Les jobs Spark échouent à cause d’échecs de compilation
Pour aller plus loin
Formation Spark Streaming
Formation Spark Tuning Avancé
Formation Kafka
Formation Kibana
Formation MongoDB
Formation PostgreSQL
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Nos Formateurs Référents
Témoignages
Les + : – Formateur très qualifié, qui savait répondre à toutes les questions.
– Vernis hyper intéressant sur la partie data engineering, que je ne connaissais pas du tout.
Les – : – Cette formation était plutôt orientée data engineer, alors que nous étions un public de data analyst. Selon moi, toute une partie était inadaptée à notre métier et notre quotidien, mais les parties essentielles nous ont quand même permis de progresser en Spark.
– Il aurait fallu + de cas pratiques.
Afficher tous les témoignages
Les + : – Formateur très qualifié, qui savait répondre à toutes les questions.
– Vernis hyper intéressant sur la partie data engineering, que je ne connaissais pas du tout.
Les – : – Cette formation était plutôt orientée data engineer, alors que nous étions un public de data analyst. Selon moi, toute une partie était inadaptée à notre métier et notre quotidien, mais les parties essentielles nous ont quand même permis de progresser en Spark.
– Il aurait fallu + de cas pratiques.
Je recommande la formation
Je recommande la formation
Les + : Nous n’avons pas eu de problème d’environnement lors des travaux pratiques sur les notebook, ce qui est très appréciable.
La formation permet de comprendre en profondeur le fonctionnement de spark (Elle serait surement très bien si adressée au bon public : cf question suivante)
Les – : – la formation m’a semblée peu adaptée au public formé : en effet elle était très axée data ingénieur. En tant que Data scientist/analyst : plusieurs parties de la formation m’ont semblées peu pertinente ou trop approfondie vis à vis de mon utilisation future de spark.
– la formation m’a parue trop théorique. Nous avons réalisé environ 2 jours de théorie et un jour de pratique. J’aurais préféré un équilibre inversé. Ma future utilisation de spark consistera à migrer du code python en pyspark et j’aurais préféré qu’on fasse plus de TP de data management en pyspark et qu’on voit en pratique comment régler des problèmes de performance.
Les + : Pédagogie et communication
Les – : Un peu intense, beaucoup d’informations à assimiler en peu de temps.
Noter la formation
1980€ HT / personne |
3 jours (21 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS