Voici 2 Vidéos d’introduction avancée au Big Data sur l’Analytics des Data Series avec Hadoop & Spark 2 sur Azure HDInsight, le Cloud Big Data de Microsoft.
Apache Spark sur HDInsight, permet d’unifier le traitement par lots (batch processing), le traitement en temps réel (real-time processing), l’analyse des flux (stream analytics), le Machine Learning et le SQL interactif (interactive SQL).
Découvrez ce Framework de traitement Open Source qui exécute des analyses de données à grande échelle. Construit sur un moteur de calcul en mémoire, Spark est connu pour ses requêtes à haute performance sur de grandes données en offrant une vitesse 100 fois plus rapide et un modèle d’exécution commun pour différentes tâches : comme extraire, transformer, charger (ETL), batch et des requêtes interactives sur les données Dans les systèmes de fichiers distribués Hadoop (HDFS). Explorez les jeux de données distribués résilientes, les notebooks et Spark ML. De plus, obtenez les détails sur Spark Streaming, Hive et Power BI dans Spark, R Server sur HDInsight avec Apache Spark, et bien plus encore !
Au sommaire
1 | Présentation de Apache Spark
Obtenez une introduction à Apache Spark, qui unifie le traitement par lots, le traitement en temps réel, l’analyse des flux, l’apprentissage par machine (ML) et le SQL interactif.
2 | Travailler avec des jeux de données distribués résilientes (RDD) dans Apache Spark
En savoir plus sur le travail avec les DDR dans Apache Spark.
3 | Utilisation des notebooks sur Apache Spark
Apprenez à travailler avec des notebooks sur Apache Spark.
4 | Spark avec HDInsight Azure
Apprenez à utiliser Spark avec Azure HDInsight.
5 | Utilisation de Spark ML (Machine Learning)
Apprenez à utiliser Spark ML.
6 | Spark SQL
Découvrez l’utilisation de Spark SQL.
7 | Hive & Power BI dans Apache Spark
Apprenez à travailler avec Hive et Power BI dans Apache Spark.
8 | Spark Streaming
En savoir plus sur Spark Streaming.
9 | Machine Learning avec la librairie Spark MLlib
En savoir plus sur le Machine Learning avec Spark MLlib.
10 | Serveur R sur HDInsight avec Apache Spark
En savoir plus sur R Server sur HDInsight avec Apache Spark.
11 | Un petit Quizz à la fin pour voir si vous avez tout suivi
Pour aller plus loin sur Le Big Data
Participez à nos formations interentreprises et intraentreprise sur SPARK 2 & le Machine Learning ou bien Spark : le Big Data par la pratique.
Voir également en complément notre formation sur Tensorflow : le Framework Deep Learning de Google mais aussi Apache Kafka : système de distribution de message en temps réel.
Hadoop sur HDInsight
Objectifs
- Comprendre les composants Hadoop : MapReduce et HDFS.
- Comprendre les composants Hadoop : YARN et Apache Tez.
- Comprendre HDInsight & HCatalog
- Comprendre le développement avec Hive, Pig et HBase
- Comprendre Apache Storm sur HDInsight
- Comprendre les clusters HDInsight, le type de cluster et leur configuration.
- Comprendre l’extensibilité et la personnalisation des clusters HDInsight à l’aide d’actions de script
- Comprendre la sécurité et les opérations du cluster
- Comprendre le suivi et la gestion de Hadoop avec l’interface d’Ambari (Ambari web UI)
- Comprendre Hadoop Clusters sur HDInsight
Spark sur HDInsight
Objectifs
- Obtenez une compréhension de haut niveau d’Apache Spark.
- Comprendre les jeux de données distribués résilientes (RDD) dans Apache Spark.
- Comprendre les cahiers sur Apache Spark.
- Comprenez Spark avec Azure HDInsight.
- Comprendre Spark ML & Spark SQL
- Comprenez Hive et Power BI dans Apache Spark.
- Comprendre Spark Streaming.
- Comprendre l’apprentissage par machine avec Spark MLlib.
- Comprenez le serveur R sur HDInsight avec Apache Spark.