Содержание курса:
Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания "pipelines" - традиционных источников поступления данных (корпоративные базы данных, web логи, файловые системы, интернет данные, транзакции) для хранения и последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутива Cloudera Hadoop.
Cписок практических занятий:
Автоматическая установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager и поддержка базовых операций с кластером Hadoop и HDFS.
Управление ресурсами и запуском задач с использованием YARN MapReduce.
Использование Apache Pig для подготовки данных, операции JOIN
Использование Apache Hive для анализа данных
Оптимизация запросов JOIN в Apache Hive
Настройка partition и bucket в Apache Hive
Инкрементальный импорт/экспорт данных с помощью Apache sqoop
SQL аналитика данных с помощью Cloudera Impala
Batch процессинг данных с использованием Apache Spark
Потоковая обработка данных с использованием Apache Spark
Импорт данных с помощью Apache Flume
Построение Event Processing System с использованием Apache Flume и Kafka
Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса HUE
Слушатели:
Специалисты по работе с большими данными ответственные за настройку и сопровождение ввода данных в Data Lake, а также желающие получить теоретические знания и практические навыки по подготовке больших данных, специфики использования процессов ETL в кластерах Hadoop, и организации Batch, stream и real-time процессинга больших данных с использованием компонентов экосистемы Hadoop.
Предварительная подготовка:
Начальный опыт работы в Unix/SQL, текстовый редактор vi
Начальный опыт работы в Hadoop (желателен)
1. Основные концепции Hadoop
2. Инструменты управления кластером
3. Хранение данных в HadoopDFS
4. Apache Spark
5. Импорт/экспорт данных в кластер Hadoop.
6. Apache Hive
7. Cloudera Impala
8. Потоковые данные