Formation Data Classification et Machine Learning

Cette formation vous permettra de réaliser les étapes de préparation de données (Data Classification) pour le Machine learning

Description de la formation

Cette formation vous permettra d’appréhender le machine learning du point de vue du traitement de la donnée (collecte, nettoyage, exploration des données…) ainsi qu’au processus de modélisation statistique. Grâce à un ensemble de techniques efficaces, vous serez en mesure, tel un data scientist, de créer des modèles prédictifs à partir de données sans avoir été explicitement programmées.

Bulletin d’
inscription Demande de
devis Détail du
programme

Programme de la formation BigData

Introduction

Zoom sur les données : format, volumes, structures, …
et les requêtes, attentes des utilisateurs.
Étapes de la préparation des données.
Définitions, présentation du data munging
Le rôle du data scientist.

Gouvernance des données

Qualité des données.
Transformation de l’information en donnée. Qualification et enrichissement.
Sécurisation et étanchéité des lacs de données.
Flux de données et organisation dans l’entreprise. De la donnée maître à la donnée de travail. MDM.
Mise en œuvre pratique des différentes phases :
Nettoyage, enrichissement, organisation des données.

Traitements statistiques de base

Introduction aux calculs statistiques. Paramétrisation des fonctions.
Applications aux fermes de calculs distribués. Problématiques induites. Approximations. Précision des estimations.

Data Mining

Besoin, apports et enjeux.
Extraction et organisation des classes de données.
Analyse factorielle.

Machine Learning

Apprentissage automatique
Définition, les attentes par rapport au Machine Learning
Les valeurs d’observation, et les variables cibles.
Ingénierie des variables.
Les méthodes : apprentissage supervisé et non-supervisé
Classification des données,
Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, etc …
Création de jeux d’essai, entraînement et construction de modèles.
Prévisions à partir de données réelles. Mesure de l’efficacité des algorithmes. Courbes ROC.
Parallélisation des algorithmes. Choix automatique.

Un mot sur les réseaux de neurones.
Réseaux de neurones à convolution. Modèles de CNN.
Les types de couches : convolution, pooling et pertes.
L’approche du Deep Learning. Deeplearning4j sur Spark.

Les risques et écueils

Importance de la préparation des données.
L’écueil du « surapprentissage ».

Visualisation des données

L’intérêt de la visualisation.
Outils disponibles
Exemples de visualisation avec R et Python

Formation Data Classification et Machine Learning

Description de la formation

Programme de la formation BigData

Paris

A distance

Objectifs

Public

Pré-requis

Formation Data Classification et Machine Learning

Description de la formation

Programme de la formation BigData

Nous vous conseillons également

Paris

A distance

Objectifs

Public

Pré-requis