Formation Big Data les fondamentaux

Avoir une première expérience du Big Data

Description de la formation Big Data les fondamentaux

La formation Big Data les fondamentaux vous permettra d’acquérir les connaissances et les compétences nécessaires pour traiter, analyser et tirer des informations à partir de grandes quantités de données structurées et non structurées. L’objectif de cette formation est de vous fournir une compréhension complète des technologies et des techniques impliquées dans le traitement et l’analyse du Big Data.

Bulletin d’
inscription
 Demande de
devis
 Détail du
programme

Programme de la formation Big Data les fondamentaux

  • Introduction
    • Immersion
    • L’approche des 4 Vs
    • Cas d’usages du Big Data
    • Technologies
    • Architecture
    • Master-less vs Master-Slaves
    • Stockage
    • Machine Learning
    • Data Scientist et Big Data
    • Compétences
    • La vision du Gartner
    • Valeur ajoutée du Big Data en entreprise
  • Collecter les données
    • Typologie des sources
    • Les données non structurées
    • Typologie 3V des sources
    • Les données ouvertes (Open Data)
    • Caractéristiques intrinsèques des sources
    • Nouveau paradigme de l’ETL à l’ELT
    • Du « schema On Write » au « Schema on Read »
    • Le concept du Data Lake
    • La vision d’Hortonworks
    • Les collecteurs Apache on Hadoop
    • SQOOP versus NIFI
    • Apache SQOOP – Présentation
    • Apache NIFI – Présentation
    • Les API de réseaux sociaux
    • Lab : Ingestion de données dans un cluster avec Apache NIFI
  • Le calcul massivement parallèle
    • Genèse et étapes clés/li>
    • Hadoop : Fonctions coeurs/li>
    • HDFS – Différenciation/li>
    • HDFS – Un système distribué/li>
    • HDFS – Gestion des blocs et réplication/li>
    • Exemples de commandes de base HDFS/li>
    • MapReduce : aspects fonctionnels et techniques/li>
    • Apache PIG et Apache HIVE/li>
    • Comparatif des 3 approches/li>
    • Les limitations de MapReduce/li>
    • L’émergence de systèmes spécialisés/li>
    • Le moteur d’exécution Apache TEZ/li>
    • La rupture Apache SPARK/li>
    • SPARK point clés principaux/li>
    • SPARK vs Hadoop Performance/li>
    • L’écosystème SPARK/li>
    • IMPALA – Moteur d’exécution scalable natif SQL/li>
    • Le moteur d’exécution Apache TEZ/li>
    • Hive in Memory : LLAP/li>
    • Big Deep Learning/li>
    • La rupture Hardware à venir/li>
  • Les nouvelles formes de stockage
    • Enjeux
    • Le « théorème » CAP
    • Nouveaux standards : ACID => BASE
    • Les bases de données NoSQL
    • Panorama des solutions
    • Positionnement CAP des éditeurs NoSQL
    • Les bases de données Clé-Valeur
    • Focus Redis
    • Les Bases de données Document
    • Focus mongoDB
    • Les bases de données colonnes
    • Focus Cassandra et HBase
    • Les bases de données Graphes
    • Le NewSQL
    • OLAP distribué
  • Le Big Data Analytics
    • Analyse de cas concrets
    • Définition de l’apprentissage machine
    • Exemples de tâches (T) du machine learning
    • Que peuvent apprendre les machines ?
    • Les différentes expériences (E)
    • L’apprentissage
    • Approche fonctionnelle de base
    • Les variables prédictives
    • Les variables à prédire
    • Les fonctions hypothèses
    • Pléthore d’algorithmes
    • Choisir un algorithme d’apprentissage machine
    • Sous et sur-apprentissage
    • La descente de gradient
    • Optimisation batch et stochastique
    • Anatomie d’un modèle d’apprentissage automatique
    • La chaîne de traitement standard
    • Composantes clés et Big Data
    • Trois familles d’outils machine Learning
    • Les librairies de machine Learning standards et Deep Learning
    • Les librairies Scalables Big Data
    • Les plates-formes de Data Science
  • L’écosystème Spark
    • Les différents modes de travail avec Spark
    • Les trois systèmes de gestion de cluster
    • Modes d’écriture des commandes Spark
    • Les quatre API Langage de Spark
    • Le machine Learning avec Spark
    • Spark SQL – Le moteur d’exécution SQL
    • La création d’une session Spark
    • Spark Dataframes
    • Spark ML
    • L’API pipeline
    • Travail sur les variables prédictives
    • La classification et la régression
    • Clustering et filtrage coopératif
    • Lab : Exemple d’un traitement machine learning avec Spark
  • Traitement en flux
    • Architectures types de traitement de Streams Big Data
    • Apache NIFI – Description, composants et interface
    • Apache KAFKA – Description, terminologies, les APIs
    • Articulation NIFI et KAFKA (NIFI ON KAFKA)
    • Apache STORM – Description, terminologies, langage (agnostique)
    • Articulation KAFKA et STORM (KAFKA ON STORM)
    • Apache SPARK Streaming et Structured Streaming
    • Articulation KAFKA et SPARK
    • Comparatif STORM / SPARK
    • Comment déployer un projet Big Data ?
      • Qu’est ce que le Cloud Computing
      • Cinq caractéristiques essentielles
      • Trois modèles de services
      • Services Cloud et utilisateurs
      • Mode SaaS
      • Mode PaaS
      • Mode IaaS
      • Modèles de déploiement
      • Tendances déploiement
      • Cloud Privé Virtuel (VPC)
      • Focus offre de Cloud Public
      • Caractéristiques communes des différentes offres de Cloud Public
      • Focus Amazon AWS
      • Focus Google Cloud Platform
      • Focus Microsoft Azure
      • Classement indicatif des acteurs
      • Points de vigilance
      • Focus sur Hadoop
        • L’écosystème Hadoop
        • Apache Hadoop – Fonctions coeurs
        • HDFS – Système de gestion de fichiers distribué (rappel)
        • Map Reduce : système de traitement distribué (rappel)
        • L’infrastructure YARN
        • YARN – Gestion d’une application
        • Docker on YARN
        • Les projets Apache principaux et associés
        • Les architectures types Hadoop
        • Les distributions Hadoop
        • Qu’est ce qu’une distribution Hadoop
        • Les acteurs aujourd’hui
        • Focus Cloudera
        • Cloudera Distribution including Apache Hadoop (CDH)
        • Focus Hortonworks
        • Hortonworks Platforms HDP et HDF
        • Nouvelle plate-forme Cloudera
        • Vision Cloudera
        • Cloudera Data Platform
        • Cloudera Data Flow
        • Architecture de traitement Big Data
          • Traitement de données par lots (BATCH)
          • Traitement de données en flux (Streaming
          • Modèles d’architecture de traitements de données Big Data
          • La gouvernance des données Big Data
            • Traitement de données par lots (BATCH)
            • Challenges Big Data pour la gouvernance des données
            • L’écosystème des outils de gouvernance Big Data
            • Les 3 piliers de la gouvernance Big Data
            • Mise en perspective dans une architecture Big Data
            • Management de la qualité des données Big Data
            • Tests de validation de données dans Hadoop
            • Les acteurs face à la qualité des données Big Data
            • Management des métadonnées Big Data
            • Apache HCatalog
            • Apache ATLAS
            • Management de la sécurité, de la conformité et la confidentialité Big Data
            • Apache RANGER
            • Tendances sécurisation des SI
            • Points de vigilance
  • Niveau : Débutant
  • Ref : BD01
  • Durée : 3 jours - 21h
  • Prix : 2100€
  • Niveau : Débutant
  • Ref : BD01
  • Durée : 3 jours - 21h
  • Prix : à définir
organiser votre formation

Objectifs

  • Comprendre le rôle stratégique de la gestion des données pour l'entreprise
  • Identifier ce qu'est la donnée, et en quoi consiste le fait d'assurer la qualité de données
  • Synthétiser le cycle de vie de la donnée
  • Assurer l'alignement des usages métiers avec le cycle de vie de la donnée
  • Découvrir les bonnes pratiques en matière de contrôle de qualité des données
  • Assurer la mise en oeuvre de la gouvernance de la donnée
  • Disposer d'un premier aperçu des possibilités de traitement proposé par MapR et Hadoop

Public

  • MOA
  • Chef de projet
  • Urbaniste fonctionnel
  • Responsable de domaine
  • Analystes, développeurs
  • Data miners
  • Data scientists
  • Data analysts

Pré-requis

  • il est recommandé d’avoir suivi la formation “Big Data , état de l’art”
  • une connaissance de SQL est un plus pour suivre cette formation
Pré-inscription
Nous proposons
Consulting
Formation