Formation Hadoop – Installation et administration

Comprendre le fonctionnement de la plateforme Hadoop et appréhender son administration

Description de la formation Hadoop – Installation et administration

La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d’énormes quantités de données. Openska vous propose ce cours qui vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d’autres composants de l’écosystème (Hive, Pig, HBase, Flume…).

Bulletin d’
inscription
 Demande de
devis
 Détail du
programme

Programme de la formation Hadoop – Installation et administration

  • Présentation du framework Apache Hadoop
    • Enjeux du Big Data et apports du framework Hadoop
    • Découverte de l’architecture Hadoop
    • Description des principaux composants de la plateforme Hadoop
    • Présentation des distributions principales du marché et des outils complémentaires (Cloudera, MapR, Dataiku…)
    • Avantages/inconvénients de la plateforme
  • Préparations et configuration du cluster Hadoop
    • Principes de fonctionnement de Hadoop Distributed File System (HDFS)
    • Principes de fonctionnement de MapReduce
    • Design « type » du cluster
    • Critères de choix du matériel
  • Installation d’une plateforme Hadoop
    • Type de déploiement
    • Installation d’Hadoop
    • Installation d’autres composants (Hive, Pig, HBase, Flume…)
  • Gestion d’un cluster Hadoop
    • Gestion des nœuds du cluster Hadoop
    • Les TaskTracker, JobTracker pour MapReduce
    • Gestion des tâches via les schedulers
    • Gestion des logs
    • Utiliser un manager
  • Gestion des données dans HDFS
    • Import de données externes (fichiers, bases de données relationnelles) vers HDFS
    • Manipulation des fichiers HDFS
  • Configuration avancée
    • Gestion des autorisations et de la sécurité
    • Reprise sur échec d’un name node (MRV1)
    • NameNode high availability (MRV2/YARN)
  • Monitoring et optimisation Tuning
    • Monitoring (Ambari, Ganglia…)
    • Benchmarking/profiling d’un cluster
    • Les outils Apache GridMix, Vaaidya
    • Choisir la taille des blocs
    • Autres options de tuning (utilisation de la compression, configuration mémoire…)
  • Niveau : Avancé
  • Ref : HAA01
  • Durée : 4 jours - 28h
  • Prix : 2710€
  • Niveau : Avancé
  • Ref : HAA01
  • Durée : 4 jours - 28h
  • Prix : à définir
organiser votre formation

Objectifs

  • Découvrir les concepts et les enjeux liés à Hadoop
  • Comprendre le fonctionnement de la plateforme et de ses composants
  • Savoir Installer la plateforme, la gérer, et l’optimiser
  • Optimiser la plateforme

Public

  • Administrateurs de cluster Hadoop
  • Développeurs

Pré-requis

  • Bonnes connaissances de l'administration Linux
Pré-inscription
Nous proposons
Consulting
Formation