Hadoop : Configuration Système Distribué

Partager par email

×

Connaître les principes du framework Hadoop et savoir l'installer et le configurer.

Code Titre Durée Prix HT
CB013 Hadoop : Configuration Système Distribué 2 jours Nous consulter

Objectifs

Connaître les principes du framework Hadoop et savoir l'installer et le configurer.

Public

Chefs de projet, administrateurs et toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop.

Pré-requis

Connaissance des commandes des systèmes unix/linux.

Post-Formation

Méthodes

50% Pratique 50% Théorique

Programme

Introduction

  • Les fonctionnalités du framework Hadoop. Les différentes versions.
  • Architecture et principe de fonctionnement.
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager.
  • Rôle des différents composants.
  • Le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
  • Ooziz, Pig, Hive, HBase, ...

Les outils Hadoop

  • Infrastrucure/Mise en oeuvre :
  • Avro, Ambara, Zookeeper, Pig, Oozie, Falcon, Pentaho
  • Vue d'ensemble
  • Gestion des données.
  • Exemple de sqoop.
  • Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..
  • Outils complémentaires:
  • Spark, Shark, Storm, BigTop, Zebra
  • de développement : Cascading, Scalding, Flink, Pachyderm
  • d'analyse : RHadoop, Hama, Chukwa, kafka

Installation et configuration

  • Trois modes d'installation : local, pseudo-distribué, distribué
  • Première installation.Mise en oeuvre avec un seul noeud Hadoop.
  • Configuration de l'environnement,étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
  • Création des users pour les daemons hdfs et yarn,droits d'accès sur les exécutables et répertoires.
  • Lancement des services.
  • Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..
  • Gestion de la grappe, différentes méthodes :
  • ligne de commandes, API Rest, serveur http intégré, APIS natives
  • Exemples en ligne de commandes avec hdfs, yarn, mapred
  • Présentation des fonctions offertes par le serveur http
  • Organisation et configuration d'une grappe

Administration Hadoop

  • Outils complémentairs à yarn et hdfs :
  • jConsole, jconsole yarn
  • suivi de charges
  • journaux
  • Gestion des noeuds,
  • Accès JMX, mise en oeuvre d'un client JMX
  • Administration HDFS
  • stockage des fichiers, fsck, dfsadmin,
  • gestion centralisée de caches avec Cacheadmin

Sécurité

  • Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode. Sécurisation de yarn avec la mise en oeuvre d'un proxy et d'un Linux Container Executor.

Exploitation

  • Supervision des éléments par le NodeManager. Visualisation des alertes en cas d'indisponibilité d'un noeud. Configuration des logs avec log4j.

Environnement

Hadoop sur Linux

Mot-clés

CB013_Hadoop-configuration-systeme-distribue_CB013

Commander