Formations › Data › IA › Formation Deep Reinforcement Learning

Formation Introduction au Deep Reinforcement Learning

Niveau confirmé

Catégorie Essential

Prix	1530€ ^HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

jeu 22

ven 23

Mai

jeu 28

ven 29

Août

jeu 20

ven 21

Novembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et déjeuners offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 4000€ Bonus Atlas CPF

Nouveauté Programme fidélité : 5% cumulé

Présentation

Le Reinforcement Learning met en œuvre un système large où un agent doit apprendre à résoudre un problème à partir de récompenses. Si ce domaine existe depuis un certain temps, l’arrivée du Deep Learning l’a bouleversé en mettant à disposition de nouveaux outils, approximant des outils (Q function, policy, etc.) par des réseaux de neurones. De nombreuses réussites ont démontré que malgré sa difficulté particulière, cette approche peut révolutionner certains problèmes : jeu vidéo, optimisation de process, jeu de go, contrôle continu ou robotique.

L’objectif ici est de présenter les bases du Reinforcement Learning, puis les principales avancées apparues ces dernières années : Deep Q Learning, Rainbow, Policy gradients (A3C, PPO), exploration (World models, Imagination augmented agents) jusqu’à une étude détaillée d’AlphaGo et AlphaGo Zero.

Objectifs

Maîtrise des concepts du reinforcement learning et des approches “model-free” principales.
Compréhension des approches basées sur l’exploration et étude des approches d’optimisation
Étude de solutions “modelbased” : apprentissage du modèle ou utilisation directe
Illustration des points abordée via les exemples d’application AlphaGo et AlphaGoZero

Public visé

Développeurs, Architectes, Big Data Data analyst / Data scientist & Engineer

Pré-requis

Connaissance de Python

Pour aller plus loin

Nous vous proposons en introduction un séminaire sur l’Intelligence Artificielle
En complément les technologies
- Pytorch de Facebook
- TensorFlow de Google

Programme de notre formation sur le Deep Reinforcement Learning

[JOUR 1]

1. Introduction aux concepts du Reinforcement Learning

Présentation du reinforcement learning : contrôle d’un agent dans un environnement défini par un état et des actions possibles. Modélisations fondamentales
Modélisation en Markov Decision Processes, définition des Value Functions, équation de Bellman, dynamic programming. Distinction entre observation et état de l’environnement
Approche par Value prediction : Temporal Difference & Monte Carlo. Mise en exemple de ces algorithmes
Policy iteration & evaluation : algorithme fondamental de convergence d’une politique d’action.
Q Learning

2. Model Free Deep Reinforcement Learning (deux exemples d’implémentation Tensorflow ou PyTorch sont étudiés selon les directions des élèves)

Deep Q-Learning : Approche fondamentale, approximation de la fonction Q, Experience Replay, Double Q Learning. Étude des résultats en détail
Deep Recurrent Q-Learning : Problématique d’un état partiellement observable. Comparaison avec le Deep Q Learning
Rainbow : analyse des avancées et modifications d’architecture en Deep Q Learning: dueling networks, prioritized experience replay, approche distributionnelle, utilisation d’un bruit. Analyse des apports combinés et individuels de chaque approche

Références :
– Playing Atari with Deep Reinforcement Learning, Mnih et al, 2013.
– Deep Recurrent Q-Learning for Partially Observable MDPs, Hausknecht and
Stone, 2015
– Rainbow: Combining Improvements in Deep Reinforcement Learning,
Hessel et al, 2017.

Policy Gradients : Architecture Actor Critic
Approche Asynchrone A3C. Définition asynchrone du Deep Q Learning. Algorithme A3C, intérêt, performances et souplesse de l’approche asynchrone
Évolution d’une policy par policy gradient : Trusted Policy Optimization et Proximal Policy Optimization. Avantages apportés par l’approche PPO. Étude des résultats et des conditions d’application.
Soft actor critic : utilisation d’un paramètre d’entropie pour maximiser l’exploration. Détails d’architecture

Références :
– Asynchronous Methods for Deep Reinforcement Learning, Mnih et al, 2016
– Proximal Policy Optimization Algorithms, Schulman et al, 2017.

Approche distributionnelle : adaptation des équations et définitions fondamentales. Motivation de l’approche et résultats observés.
Algorithmes à évolution : utilisation de Natural Evolution Strategies pour une convergence Deep Reinforcement Learning. Vision de l’optimisation et de la parallélisation possible de l’apprentissage. Analyse des résultats comparés.

Références :
– Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement
Learning with a Stochastic Actor, Haarnoja et al, 2018
– Evolution Strategies as a Scalable Alternative to Reinforcement Learning,
Salimans et al, 2017

[JOUR 2]

3. Exploration de l’environnement

Exploration versus apprentissage : quelle pondération, quel intérêt ? Comment définit-on l’exploration ?
Étude des explorations basées sur un décompte des états/actions.
Analyse des modélisations possibles de l’état par Hash. Apprentissage du hash par Variational Autoencoder (rappel des principes du VAE)
Concepts de “curiosité”
Approche basée uniquement sur l’exploration sans récompense directe. Résultats, intérêts et discussions

Références :
– Exploration: A Study of Count-Based Exploration for Deep Reinforcement
Learning, Tang et al, 2016
– Large-Scale Study of Curiosity-Driven Learning, Burda et al, 2018

4. Model based Deep Reinforcement Learning : apprentissage du modèle.

Mise en œuvre de l’apprentissage d’un modèle interne à l’agent devant représenter l’environnement.
Étude des différentes stratégies de modélisation. Approche probabiliste ou déterministe.
Entrainement d’un modèle dans son environnement “interne” et application à l’environnement cible.
Étude du concept d’ “imagination” (Deepmind), Imagination Augmented Agent. Exploitation d’un apprentissage libre avec modélisation des états futurs d’une manière interne. Études d’ablation.
Résultats comparés

Références :
– Imagination-Augmented Agents for Deep Reinforcement Learning, Weber
et al, 2017
– Recurrent World Models Facilitate Policy Evolution, Ha and Schmidhuber,
2018.

5. Approches model-based : AlphaGo, AlphaGo Zero et dérivés

Monte Carlo Tree Search (MCTS) : analyse de l’algorithme fondamental
AlphaGo : analyse de l’apprentissage en quatre étapes, et utilisation de la MCTS pondérant les différents réseaux de neurones disponibles. Analyse de la performance et des résultats
AlphaGo Zero : analyse des évolutions, utilisation de la MCTS au sein de l’apprentissage. Comparaison AlphaGo VS AlphaGO Zero
AlphaZero : généralisation de l’approche AlphaGo Zero à d’autres approches
Imitation Learning : définition et exemples
Expert Iteration : utilisation de la MCTS pour modélisation interne d’un modèle expert permettant de mettre en oeuvre l’imitation learning.

Références :
– Mastering Chess and Shogi by Self-Play with a General Reinforcement
Learning Algorithm, Silver et al, 2017
– Thinking Fast and Slow with Deep Learning and Tree Search, Anthony et al,
2017

6. Scaling d’un apprentissage RL et algorithmes récents

Analyse des possibilités de parallélisation GPU versus CPU. Stratégies d’approches et de mitigation. Vision “data-efficiency” des approches proposées.
Approche distributive pour parallélisation plus importante des apprentissages
Analyse de l’algorithme R2D2 : utilisation de modèles récurrents et parallélisation, analyse poussée des biais induits par la variation de l’état caché du réseau

Références :
– Accelerated Methods for Deep Reinforcement Learning, Stooke and Abbeel,
2018
– Recurrent Experience Replay in Distributed Reinforcement Learning,
Kapturowski et al, 2018

Télécharger le plan du cours

Download the course outline

Langues et Lieux disponibles

 Langues

Français
Anglais / English

 Lieux

France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
Belgique
- Bruxelles
- Liège
Suisse
- Genève
- Zurich
- Lausanne
Luxembourg

Nos Formateurs Référents

Eric

Ingénieur Telecom ParisTech et chef d’entreprise depuis 2010. Il est co-fondateur de Quematech, société de conseil et services en architecture logicielle complexe, ainsi que de Datalchemy, startup spécialisée en Deep Learning, chez qui il occupe également le poste de Lead Data Scientist.

Témoignages

8 avril 2022

Bonne trame pour aborder un sujet aussi vaste que le Reinforcement Learning. La maitrise de David permet de trouver des cas d’usage dans des contextes très différents.

Sujet trop vaste pour être maitrisé en 2 jours. Le cas pratique du robot de tradding est peut être trop spécifique pour être abordable sans être spécialiste du traddding

Questionnaire d’évaluation finale sans intérêt et hors sujet…

Guillaume M. de chez Softeam Group

Afficher tous les témoignages

8 avril 2022

Bonne trame pour aborder un sujet aussi vaste que le Reinforcement Learning. La maitrise de David permet de trouver des cas d’usage dans des contextes très différents.

Sujet trop vaste pour être maitrisé en 2 jours. Le cas pratique du robot de tradding est peut être trop spécifique pour être abordable sans être spécialiste du traddding

Questionnaire d’évaluation finale sans intérêt et hors sujet…

Guillaume M. de chez Softeam Group

8 avril 2022

Formateur très attentif à notre problématique, participe à ,la mise en place d’une solution , très bon moyen pour apprendre sur un cas concret et parlant pour les personnes qui suivent la formation..

Stéphane B. de chez IFREMER

8 avril 2022

Formation avec un bon niveau technique, David et très compétent et pédagogue. Bon vision d’ensemble du RL

Formation très bien.

Intervention assez intrusive en fin de formation d’une personne Ambient IT en plus d’un QCM qui n’a rien à voir avec le contenu.

Jean D. de chez GRDF

Noter la formation

Prix	1530€ ^HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

jeu 22

ven 23

Mai

jeu 28

ven 29

Août

jeu 20

ven 21

Novembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et déjeuners offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 4000€ Bonus Atlas CPF

Nouveauté Programme fidélité : 5% cumulé

Formation Introduction au Deep Reinforcement Learning

Présentation

Objectifs

Public visé

Pré-requis

Pour aller plus loin

Programme de notre formation sur le Deep Reinforcement Learning

[JOUR 1]

1. Introduction aux concepts du Reinforcement Learning

2. Model Free Deep Reinforcement Learning (deux exemples d’implémentation Tensorflow ou PyTorch sont étudiés selon les directions des élèves)

[JOUR 2]

3. Exploration de l’environnement

4. Model based Deep Reinforcement Learning : apprentissage du modèle.

5. Approches model-based : AlphaGo, AlphaGo Zero et dérivés

6. Scaling d’un apprentissage RL et algorithmes récents

Langues et Lieux disponibles

 Langues

 Lieux

Nos Formateurs Référents

Eric

Témoignages

Afficher tous les témoignages

Noter la formation

Par référence client

Par email et SIREN

Votre cagnotte disponible

Client non trouvé