Big Data : Mise en oeuvre

Apprendre à collecter et à analyser des données massives.

Description de la formation Big Data : Mise en œuvre

Cette formation complète de 4 jours reprend le cheminement logique d’un projet d’analyse de données. La mise en œuvre de Big Data implique souvent la sélection de technologies appropriées, la configuration de l’infrastructure, l’intégration de données, le développement de pipelines de traitement, le choix d’outils d’analyse et de visualisation. Cette formation vous permettra notamment d’acquérir les compétences techniques nécessaires à la mise en œuvre d’analyses Big Data, ainsi d’être en mesure de choisir la bonne solution de stockage de données au regard des spécificités d’un projet. Une formation opérationnelle durant laquelle s’alternent les phases d’apports théoriques, d’échanges et de partage d’expériences.

Bulletin d’
inscription Demande dedevis Détail du
programme de la formation Big Data: Mise en œuvre

Introduction

Objectifs
Schématisation du projet
Écosystème et stack technologique
Résultats attendus

Ingestion de de données massives

Description
Caractéristiques clés des outils d’ingestion
Solutions (packagées, cloud computing et Hadoop)
Apache NIFI
Apache KAFKA
Ingestion de données en streaming NIFI on KAFKA
Réalisation d’un workflow NIFI d’ingestion de donnée streaming dans HDFS

Traiter des données Big Data en Batch

Diagramme de fonctionnement/li>
Solutions logicielles associées (MapReduce, Hive, Spark, …)/li>
Big Data Batch scripting/li>
Data Warehousing Big Data/li>
Création de tables partitionnées, clusterisées et/ou transactionnelles/li>
Écriture des scripts d’updates des différentes tables/li>
Analytics Big Data/li>

Traitement avancé Big Data

L’écosystème Spark
Schéma général de création d’un modèle de ML
Création d’un modèle de clusterisation de données
Création d’un modèle d’analyse prédictive supervisé
Enrichissement d’un DWH avec Spark
Sauvegarde d’un modèle d’apprentissage machine
Application d’un modèle ML

Le stockage de données distribuées

Principes des bases de donnes distribuées
Solutions (NoSQL, NewSQL)
Création d’une base de données distribuée
Ingestion de données dans une base de données distribuées
Interrogation d’une base de données distribuées

Automatisation de chaîne de traitement Batch

L’orchestrateur Oozie
Ordonnancement de scripts HIVE
Combinaison avec des scripts SPARK
Création d’un worklow Oozie complet

Traitement de données massives en flux

Principe de fonctionnement
Solutions logicielles
Le prétraitement de données en streaming
L’inscription de streams à un Hub Streaming
La consommation de streams auprès d’un Hub
Le traitement avancé de données en flux (machine learning)

Mise en oeuvre dans une architecture Big Data

Les approches standards
Réalisation d’une solution complète de traitement de données type Lamda
Réalisation d’une solution complète de traitement de données type Kappa

Nous vous conseillons également

Formation Data Classification et Machine Learning

Formation Hadoop-Développer des applications Big Data

Formation Big Data, état de l’art

Formation Big Data les fondamentaux

DPO – Data Protection Officer

Formation Cassandra

Big Data : Mise en oeuvre

Description de la formation Big Data : Mise en œuvre

Paris

A distance

Objectifs

Public

Pré-requis