Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Нур-Султан, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

направление: Big Data кол-во дней: 5
вендор: HADOOP кол-во часов: 40

Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Hadoop версии 3. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA)   на базе Hadoop.

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services с использованием Apache Hadoop версии 3 на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) и Arenadata Hadoop (российский дистрибутив Hadoop в рамках программы  импортозамещения), а также программного обеспечения управления кластером Cloudera Manager/ Arenadata Cluster Manager / Horton Works Ambari(по запросу)

Предварительные требования:

  • Базовый опыт работы в Linux (обязательно)

  • Опыт работы с любым текстовым редактором vi, nano

Аудитория курса:

Практический курс Администрирование кластера Hadoop предназначен для системных администраторов, архитекторов, DevOps-инженеров и разработчиков Big Data, которые хотят освоить прикладные навыки установки, конфигурирования, обслуживания, управления и администрирования кластера Hadoop на базе дистрибутивов Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) и Cloudera Manager, или Arenadata Hadoop.

Введение в Big Data

  • Что такое BigData. Понимание проблемы Big Data

  • Эволюция систем распределенных вычислений Hadoop

  • Принципы формирования Data Lake и pipelines

Архитектура Apache Hadoop

  • Hadoop сервисы и основные компоненты. Name node. DataNode.

  • YARN сервис-планировщик

  • Демоны HDFS

  • Отказоустойчивость и высокая доступность

Hadoop Distributed File System

  • Архитектура HDFS. Блоки HDFS.

  • Основные команды работы с HDFS.

  • Операции чтения и записи, назначения HDFS.

  • Дисковые квоты. Поддержка компрессии

  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы

  • Импорт (загрузка) данных на HDFS

  • Организация Tiering для хранения данных

  • Архивное хранение HDFS

  • Локальное чтение и распределенное кэширование

Map Reduce

  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARNMapReduce v2/3

  • Ограничения и параметры MapReduce и YARN

Управление запуском пользовательских задач (jobs) под MapReduce

  • Дизайн кластера Hadoop

  • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop CDP, Horton Works Data Platform, Arenadata Hadoop): различия и ограничения

  • Требования программного и аппаратного обеспечения

  • Планирование кластера

  • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop

  • Federated Name Node. Hadoop в облаке.

  • Сравнение Cloud решений для Hadoop. Amazon EMR

  • Интеграция с другими решениями: streaming (Data Flow), NoSQL.

Установка кластера CDP

  • Оптимизация OS для узлов кластера

  • Установка Hadoop-кластера с использованием Cloudera Data Platform Private Cloud

  • Выбор начальной конфигурации

  • Начальная конфигурация HDFS и MapReduce

  • Файлы логов и конфигураций

  • Установка Hadoop клиентов

  • Установка Hadoop кластера в облаке

  • Автоматические варианты установки

  • Установка и настройка кластера Hadoop в изолированном окружении (offline).

Операции обслуживания кластера Hadoop

  • Дисковая подсистема

  • Квоты

  • Остановка, запуск, перезапуск (Graceful Shutdown)

  • Управление узлами

  • Управление обновлениями и создание локального репозитория

Оптимизация и управление ресурсами

  • Поиск узких мест

  • Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing

  • Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.

  • Особенности управления ресурсами для разных дистрибутивов

Управление кластером Hadoop с использованием Cloudera Manager

  • Основные операции и задачи ClouderaManager

  • Мониторинг с Cloudera Manager/Grafana

  • Диагностика и разрешение проблем с Cloudera Manager

  • Обзор Apache Zookeeper

  • Cloudera Manager API

Безопасность Apache Hadoop

  • Безопасность по умолчанию

  • Многопользовательский режим

  •  Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop

  • Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas

  • Резервное копирование и аварийное восстановление

  • Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)

  • Best practices Cloudera/ Arenadata

Мониторинг Apache Hadoop

  • Встроенные средства мониторинга Cloudera Manager

  • Логи сервисов и компонент

Troubleshooting

  • Data Node

  • Name Node

  • Восстановление Name Node

Инструментарий Apache Hadoop экосистемы

  • Графический интерфейс сервиса HUE/Zeppelin

  • Основы  Apache Zookeeper

  • Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive

  • Использование Apache Sqoop – установка и выполнение базовых операций

  • Базовые операции Apache Flume – установка и выполнение базовых операций

  • Обзор и назначение компонент: Apache Spark, Apache Solr, Cloudera Impala, Apache HBase, Apache Phoenix, Apache NiFi, Apache Kafka, Apache Oozie

 

ПРИМЕРНЫЙ СПИСОК ПРАКТИЧЕСКИХ ЗАНЯТИЙ:

  • Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Cloudera Data Platform (CDP) Private Cloud  в облаке Amazon Web Services с использованием Cloudera Manager

  • Базовые операции с кластером Hadoop и файловые операции HDFS.

  • Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez.

  • Управление кластером с использованием Cloudera Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)

  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager

  • Установка и выполнение базовых операций в Apache Hive, Apache Sqoop, Apache Flume

  • Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin

  • Мониторинг кластера Hadoop с использованием Zabbix (опционально)

  • HA высокая доступность (High Availablility) NameNode и YARN (ресурс-менеджер) .