Formations › Data › Python pour la data › Formation Analyse des Clusters (Partitionnement) avec Python

Formation Analyse des Clusters (Partitionnement de données) avec Python

Niveau confirmé

Catégorie Essential

formation analyse des clusters avec python

Prix	3390€ ^HT / personne
4 jours (28 heures)

Paris | Classe Virtuelle

lun 2

jeu 5

Juin

lun 28

jeu 31

Juillet

lun 22

jeu 25

Septembre

lun 17

jeu 20

Novembre

lun 12

jeu 15

Janvier

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et déjeuners offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 4000€ Bonus Atlas CPF

Nouveauté Programme fidélité : 5% cumulé

Présentation

La clusterisation est l’une des méthodes incontournables de l’analyse de données. En effet, regrouper ces données en groupes homogènes et distincts peut bénéficier de nombreux domaines comme la santé, le marketing ou encore la finance.

En marketing, la création de clusters (aussi appelé segments) permet de catégoriser chaque client. Cette catégorisation a un effet positif sur les performances de vos campagnes, car vos messages sponsorisés seront personnalisés pour votre groupe cible.

La clusterisation peut également être utile pour la détection de fraudes grâce à la reconnaissance visuelle. Ce système est intéressant, notamment pour la reconnaissance de signature dans le domaine de la cybersécurité ou en finance.

Afin de réaliser nos partitions de données, nous utiliserons l’un des langages de programmation les plus utilisés dans le monde, Python. Grâce à sa librairie scikit-learn, Python possède toutes les fonctions pour la création efficace de clusters de données.

Notre formation analyse des clusters vous initiera à la programmation sur python pour l’analyse de données, vous connaîtrez l’intérêt et les cas d’usage des méthodes de clusterisation. À la fin de ce cours, vous saurez créer des clusters ainsi que les analyser avec Python.

Comme toujours, notre formation s’appuiera sur la dernière version en date du langage, Python 3.10.

Objectifs

Utiliser Python pour l’analyse de données
Comprendre l’utilité de la clusterisation
Connaître les principaux types d’algorithmes de clusterisation
Savoir préparer ses données avec Python
Savoir représenter et analyser ses clusters

Public visé

Data Analyst
Data Scientist
Data Engineer
Machine learning engineer
Chef d’entreprise
Analyste
Chargé de marketing

Pré-requis

Connaissances en mathématiques générales (probabilités, statistiques…).

Programme de notre formation Analyse des Clusters de Données

Introduction

Qu’est-ce qu’un cluster ?
La différence entre clusterisation et segmentation
L’intérêt de l’analyse des clusters, les cas d’usage
Les limites et les défis de la clusterisation

Les différentes méthodes de partitionnement de données

K-means
Mean-Shift
Le DBSCAN (Regroupement spatial d’applications avec du bruit basé sur la densité)
Algorithme espérance maximisation avec ou sans des modèles de mélange Gaussien (GMM)
Regroupement hiérarchique

Présentation de Python

Pourquoi utiliser Python ?
Présentation de la librairie Scikit learn
Utiliser des fonctions de librairies
Gérer les modules et librairies

Commencer la programmation avec Python

La syntaxe de Python
Les variables
Les différents types d’ensembles de données
- Tuple
- Liste
- Set
- Dictionnaire
Les fonctions
Écrire ses propres fonctions

Bien préparer ses données avec Python

L’importance d’avoir des données intègres et préparées
Lire et modifier des fichiers CSV
Importer ses données
Nettoyer et préparer ses données
Formatage des données
Construire des pipelines de données

K-Means Clustering

Importer les modules sklearn
Importer ses données
Les paramètres
- n_samples
- centers
- cluster_std
La fonction make_blobs()
Utiliser la standardisation
Utiliser la fonction KMeans
Les méthodes pour choisir le bon nombre de clusters
Représenter les clusters graphiquement

Mean-Shift

Importer MeanShift et make _blobs
Déterminer les centres du cluster
Représenter les données en 3D

DBSCAN

Importer ses données
Description des paramètres
Clusteriser ses données
Représenter ses regroupements de données graphiquement

Espérance-maximisation

Concaténer des courbes gaussiennes
Explication de l’algorithme d’espérance maximisation
Représenter graphiquement ses partitions de données

Regroupement hiérarchique

Préparer les données
Calculer les informations de similarité entre chaque donnée
Utiliser une fonction de liaison
Déterminer la coupure de l’arbre hiérarchique

Analyser ses résultats

Méthodes de validation des partitions
Évaluation de la mise en grappes
Améliorer ces clusters
Mise en grappe basée sur les contraintes
- Mesures établies sur l’appariement
- Mesures basées sur l’entropie
- Mesures par paires
Mesures internes pour valider ses clusters
La stabilité des grappes

Pour aller plus loin

Formation Intelligence Artificielle

Formation TensorFlow

Formation Analyse de données avec Python

Télécharger le plan du cours

Download the course outline

Langues et Lieux disponibles

 Langues

Français
Anglais / English

 Lieux

France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
Belgique
- Bruxelles
- Liège
Suisse
- Genève
- Zurich
- Lausanne
Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages