Big Data : Mise en oeuvre

Apprendre à collecter et à analyser des données massives.

Description de la formation Big Data : Mise en œuvre

Cette formation complète de 4 jours reprend le cheminement logique d’un projet d’analyse de données. La mise en œuvre de Big Data implique souvent la sélection de technologies appropriées, la configuration de l’infrastructure, l’intégration de données, le développement de pipelines de traitement, le choix d’outils d’analyse et de visualisation. Cette formation vous permettra notamment d’acquérir les compétences techniques nécessaires à la mise en œuvre d’analyses Big Data, ainsi d’être en mesure de choisir la bonne solution de stockage de données au regard des spécificités d’un projet. Une formation opérationnelle durant laquelle s’alternent les phases d’apports théoriques, d’échanges et de partage d’expériences.

Bulletin d’
inscription
 Demande dedevis Détail du
programme de la formation Big Data: Mise en œuvre

  • Introduction
    • Objectifs
    • Schématisation du projet
    • Écosystème et stack technologique
    • Résultats attendus
  • Ingestion de de données massives
    • Description
    • Caractéristiques clés des outils d’ingestion
    • Solutions (packagées, cloud computing et Hadoop)
    • Apache NIFI
    • Apache KAFKA
    • Ingestion de données en streaming NIFI on KAFKA
    • Réalisation d’un workflow NIFI d’ingestion de donnée streaming dans HDFS
  • Traiter des données Big Data en Batch
    • Diagramme de fonctionnement/li>
    • Solutions logicielles associées (MapReduce, Hive, Spark, …)/li>
    • Big Data Batch scripting/li>
    • Data Warehousing Big Data/li>
    • Création de tables partitionnées, clusterisées et/ou transactionnelles/li>
    • Écriture des scripts d’updates des différentes tables/li>
    • Analytics Big Data/li>
  • Traitement avancé Big Data
    • L’écosystème Spark
    • Schéma général de création d’un modèle de ML
    • Création d’un modèle de clusterisation de données
    • Création d’un modèle d’analyse prédictive supervisé
    • Enrichissement d’un DWH avec Spark
    • Sauvegarde d’un modèle d’apprentissage machine
    • Application d’un modèle ML
  • Le stockage de données distribuées
    • Principes des bases de donnes distribuées
    • Solutions (NoSQL, NewSQL)
    • Création d’une base de données distribuée
    • Ingestion de données dans une base de données distribuées
    • Interrogation d’une base de données distribuées
  • Automatisation de chaîne de traitement Batch
    • L’orchestrateur Oozie
    • Ordonnancement de scripts HIVE
    • Combinaison avec des scripts SPARK
    • Création d’un worklow Oozie complet
  • Traitement de données massives en flux
    • Principe de fonctionnement
    • Solutions logicielles
    • Le prétraitement de données en streaming
    • L’inscription de streams à un Hub Streaming
    • La consommation de streams auprès d’un Hub
    • Le traitement avancé de données en flux (machine learning)
    • Mise en oeuvre dans une architecture Big Data
      • Les approches standards
      • Réalisation d’une solution complète de traitement de données type Lamda
      • Réalisation d’une solution complète de traitement de données type Kappa
  • Niveau : Intermédiaire
  • Ref : BD05
  • Durée : 4 jours - 28h
  • Prix : 2690€
  • Niveau : Intermédiaire
  • Ref : BD05
  • Durée : 4 jours - 28h
  • Prix : à définir
organiser votre formation

Objectifs

  • Acquérir les compétences techniques nécessaires à la mise en oeuvre d'analyses Big Data
  • Comprendre le cadre juridique du stockage et de l'analyse de données
  • Savoir utiliser des outils de collecte Open Source
  • Savoir choisir la bonne solution de stockage de données au regard des spécificités d'un projet (OLAP, NoSQL, graph)
  • Découvrir la boîte à outils technologique que constitue Hadoop et son écosystème
  • Savoir comment utiliser chaque brique (MapReduce, HIVE, SPARK...)
  • Etre en mesurer d’analyser les résultats et comprendre la signification des données extraites

Public

  • Chefs de projet
  • Data Scientists, Data Analysts
  • Développeurs
  • Analystes et statisticien

Pré-requis

  • Il est recommandé d’avoir suivi la formation “Big Data , les fondamentaux”.
  • Une connaissance de SQL est un plus pour suivre cette formation.
Pré-inscription
Nous proposons
Consulting
Formation