Formation Dataiku : La plateforme DSS
1790€ HT / personne |
2 jours (14 heures) |
Présentation
Dataiku est une plateforme data science permettant la création de modèle tout en industrialisant en toile de fonds l’ensemble des chaînes de traitement : collecte, préparation des données…
Grâce à cette formation Dataiku, votre équipe pourra en apprendre davantage sur les fonctionnalités de Dataiku. Elle saura s’interfacer sur des environnements Cloud, améliorer votre organisation en mettant en valeur la donnée au cœur de votre stratégie.
Cet outil collaboratif va permettre à votre entreprise d’avoir à disposition des fonctionnalités autour du Machine Learning et de la Data Science.
Mais aussi de convertir les données en prédiction, utiliser pour explorer, développer vos propres produits data. Vous pourrez préparer votre plateforme afin d’automatiser le workflow et déployer la production.
Pour cette formation, nous utilisons la dernière version : DSS 11.
Objectifs
- Identifier les bénéfices de Dataiku et des outils de Machine Learning et Data Science
- Comprendre la mise en production des modèles et flux Dataiku
- Utiliser l’interface DSS
- Construire différents projets et flux de manipulation de données
Public visé
- Data analysts
- Data scientists
- Data engineers
- Analyst SAS
Pré-requis
Connaissances en data science.
Pré-requis logiciel
- Une instance Dataiku DSS installée et accessible aux participants
- Un accès aux bases de données (SQL, NoSQL) ou des fichiers de données pour les exercices
- Connexion aux API et services cloud si nécessaire
Programme de notre formation Dataiku
Introduction à Dataiku DSS
- Présentation de Dataiku : historique et évolution
- Concepts clés et architecture (on-premise vs cloud)
- Rôles et profils des utilisateurs (Data Engineer, Data Scientist, Analyste, etc.)
- Organisation des projets et structuration des workflows
- Cas pratique : Création d’un premier projet DSS et découverte de l’interface utilisateur
Gestion et préparation des données
- Connexion aux différentes sources de données (SQL, NoSQL, Data Lakes, API)
- Importation et exploration des datasets
- Nettoyage des données avec les recettes visuelles
- Enrichissement des données : jointures, stacking, transformation
- Cas pratique : Importer un jeu de données clients, nettoyer et préparer les données en supprimant les doublons et en normalisant les formats
Transformation et manipulation avancée des données
- Recettes visuelles et scriptées : SQL, Python, R
- Types de données et leur gestion (Semantic Types)
- Recettes avancées : Grouping, Window Functions, Pivot
- Gestion des grands volumes de données et optimisation des workflows
- Cas pratique : Fusionner plusieurs datasets de transactions bancaires et créer de nouvelles variables exploitables
Data Visualisation et Dashboards
- Choix des graphiques et meilleures pratiques en data visualisation
- Création de Dashboards interactifs
- Exportation et partage des visualisations
- Gestion des accès et permissions des Dashboards
- Cas pratique : construire un Dashboard montrant l’évolution des ventes par région et par catégorie de produit
Introduction au Machine Learning avec Dataiku
- Concepts de base du Machine Learning (supervisé vs non supervisé)
- Construction et entraînement de modèles avec AutoML
- Sélection des variables et évaluation des modèles (metrics, confusion matrix, ROC, etc.)
- Explicabilité des modèles et interprétation des résultats
- Cas pratique : Construire un modèle de classification pour prédire si un client va churner ou non
Feature Engineering et Feature Store
- Création et transformation des variables
- Gestion des Feature Stores pour réutiliser des jeux de données
- Documentation et versioning des features
- Cas pratique : Construire et stocker des features pour un modèle de scoring de crédit
Industrialisation et Automatisation des workflows
- Introduction aux scénarios d’automatisation
- Gestion des pipelines de données
- Déploiement et monitoring des modèles en production
- Gestion des erreurs et alertes
- Cas pratique : Automatiser la mise à jour d’un modèle prédictif en fonction de nouvelles données
Collaboration et gestion avancée des projets
- Organisation des projets et gestion des droits utilisateurs
- Utilisation des Flow Zones pour structurer les workflows
- Documentation et suivi des modifications
- Meilleures pratiques de collaboration
- Cas pratique : Travailler en équipe sur un projet et suivre les modifications apportées par chaque membre
Étude de cas finale : Détection de fraude bancaire
- Mise en application des compétences acquises
- Création d’un pipeline de données complet
- Déploiement d’un modèle de machine learning
- Création et partage d’un Dashboard de suivi
- Objectif : Construire un projet de bout en bout en utilisant toutes les fonctionnalités vues dans la formation
Pour aller plus loin
Formation Pytorch
Formation Tensorflow
Formation Spark Machine Learning
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Témoignages
Les + : Formation adaptée au niveau des participants + petit groupe (plus facile en distanciel quand il y a des novices)
Afficher tous les témoignages
Les + : Formation adaptée au niveau des participants + petit groupe (plus facile en distanciel quand il y a des novices)
Je recommande la formation
Je recommande la formation
Noter la formation
1790€ HT / personne |
2 jours (14 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS