Sélectionner une page
Formations Data Analyse de données Formation Langage R

Formation Langage R

Logo Formation Langage R
Prix 3330€ HT / personne
5 jours (35 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

R est un langage de programmation et un logiciel dédié aux statistiques et à la science des données. Créé en 1993, il est utilisé par les statisticiens, les data miner, data scientist pour le développement de logiciels statistiques et l’analyse des données.

Il compile et fonctionne sur une grande variété de plates-formes UNIX, Windows et MacOS.

Dans cette formation Data Science, nous appréhendons le langage R, ensuite, nous apprendrons l’enjeu et les pièges de l’apprentissage non supervisé et les règles de l’apprentissage supervisé. Puis, nous analyserons un modèle et découvrirons le traitement de données non structurées. Enfin, nous finirons cette formation sur une initiation au Deep Learning.

La formation utilisera les dernière version stable en date du projet (R version 4 à ce jour).

 

Objectifs

  • Initiation au langage R
  • Comprendre l’apprentissage non supervisé et supervisé
  • Anticiper le Deep Learning

 

Public visé

Data-scientists, Manipulateurs de la data, Développeurs, Chefs de Projets, Architecte

 

Pré-requis

Des connaissances de base en statistiques et à un langage de programmation.

Programme de la formation langage R : Data Science

 

Jour 1 – Philosophie data science

  • Historique rapide
  • Fondements formel de l’apprentissage machine.
  • Distinction supervisé, non supervisé, par renforcement, trade off biais variance
  • « Big Data » : Ni plafond ni plancher
  • Théorie de la longue traîne appliquée aux données
  • 2 approches : connaître l’avenir ou le changer ?
  • Une stratégie de microdécision plus qu’un outil de décision

 

Initiation à R

  • Fondamentaux
  • Chargement des données avec data.table
  • Exploration des données : par synthèse, par visualisation. Exercices de sélection / filtrage
  • Traitement des données catégorielles, notion de dummy variable
  • Traitement des données manquantes
  • Gestion des formats (dont temps et lieux)
  • Génération de nouvelles features : exploitation approfondie du format datatable

 

Jour 2 – Apprentissage non supervisé

  • Approche synthèse
    • Synthese par colonne : Réduction de dimension : PCA / ICA
    • Synthèse par ligne : clustering
    • Kmeans
    • Hiérarchique (top down ou bottom up
    • Méthode d’évaluation de performance : variance / indicateur de silhouette
  • Approche valeurs manquantes
    • Décomposition SVD
    • SGD, ALS

 

Jour 3 – Apprentissage supervisé

  • Régression lin2aire
    • Formulation, condition d’usage
  • Analyse de performance, pvalue, détection de performance
    • Notion d’overfitting
    • R2 et R2 ajusté
  • Sélection de feature : approche forward, stepwise
  • Approche pénalisée
    • Ridge, Lasso, élastic net.
    • Interprétation géométrique
  • Arbres de décision
    • Principe de construction
    • Prunning
    • Interprétation, contexte d’exploitation
  • Random Forest
    • Comment dépasser les limites de l’arbre de décision
    • Feature importance, importance locale
  • Gradient boosting
    • Principes
    • Réglages
  • XGBosst (extreme gradient boosting)
    • Principes, réglages

 

Jour 4 – Réglage fin et dépouillement de modèle

  • Approfondissement des techniques de réglage de modeles
    • Fonctions de coût, RMSE, courbe roc et indicateur auc
    • Précautions de réglage, pièges à éviter
  • Dépouillement de modèle
    • Où était l’information ?
    • Simplifier le modèle, sélection de feature avancée

 

Initiation text mining et NLP

  • Lois de Heaps et de Zipf
  • Comment structurer une source non structurée
    • Approche bag of words
    • Stop word et normalisation TF IDF
  • Vers le NLP (natural language processing)
    • Analyse sémantique
    • Approche deep learning

 

Jour 5 – Initiation Deep Learning

  • Réseaux de neurone
  • Architecture de réseaux
    • Convolution
    • LSTM
  • Découverte de l’environnement Keras pour déployer

 

Gestion de projet

  • Les différentes phases d’un projet data
  • Adaptation de la gestion de projet Agile aux projets data
  • Structurer le dialogue data science / métier
  • Piloter le projet
  • Comment faire émerger les projets ? Quand s’arrêter ?

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Julien

Julien

Agrégé de mathématiques pures de l’université de Bordeaux,
Consultant (défense, finance, et la recherche) en statistiques décisionnelles,
Formateur R et python data science.

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Noter la formation

Prix 3330€ HT / personne
5 jours (35 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp