Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Нур-Султан, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

направление: Big Data кол-во дней: 5
вендор: HADOOP кол-во часов: 40

Соотношение теории к практике 40/60

Данный курс  включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр.  для последующего анализа больших данных.

На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Основные концепции Hadoop и Data Lake

  • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop.

  • Организация хранения данных в Hadoop Data Lake

  • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.

  • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.

  • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.

Инструменты управления кластером

  • Выполнение базовых операций с Cloudera Manager.

  • Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.

Хранение данных в HDFS

  • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.

  • Организация и оптимизация Data Layout хранения данных в HDFS

Импорт/экспорт  данных в кластер Hadoop – формирование Data Lake

  • Импорт и обработка данных в кластере Hadoop

  • Интеграция с реляционными базами данных

  • Структура хранения данных в таблицах

  • Сравнительная характеристика решений Hadoop SQL

  • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт

Введение в Apache Spark

  • Архитектура и состав Apache Spark

  • Основные абстракции (Dataframe, RDD)

  • Spark SQL

  • Ввод и вывод данных в Apache Spark

  • Spark Streaming.

  • Обработка слабо структурированных данных.

Apache Hive

  • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности

  • Hive LLAP, Hive on Tez

Cloudera Impala (опционально)

  • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  Spark, Hive

  • Оптимизация Impala запросов

Потоковые данные в Data Lake

  • Event Processing System. Импорт потоковых данных в кластер

  • Использование Kafka для работы с потоковыми данными

  • Использование Flume  для работы с потоковыми данными (опционально только для версии 2)

  • Интеграция Flume + Kafka

  • Процессинг данных с использование Apache NiFi

  • Оркестрация данных с Apache Airflow

CПИСОК ПРАКТИЧЕСКИХ ЗАНЯТИЙ : 

  • Выполнение первоначальной настройки и базовых операций с кластером Hadoop и файловой системой HDFS

  • Управление очередями ресурсами и запуском задач с использованием YARN

  • Использование Apache Pig для подготовки данных, операции JOIN (опционально версия 2)

  • Инкрементальный импорт/экспорт данных с помощью Apache Sqoop

  • Использование Apache Hive для анализа данных

  • Оптимизация запросов JOIN в Apache Hive

  • Настройка partition и bucket в Apache Hive

  • SQL аналитика данных с помощью Cloudera Impala

  • Подготовка и анализ данных с использованием  Apache Spark

  • Импорт данных с помощью Apache Flume (опционально версия 2)

  • Построение Event Processing System с использованием Apache Flume и Kafka

  • Создание и управление запросами Hive, Impala с использованием веб-интерфейса HUE/Zeppelin (Демо)

  • Построение Dataflow с использованием Apache NiFi (опционально)

  • Построение Workflow с использованием Apache Airflow