Курс представляет собой преимущественно практический тренинг по установке и настройке кластера Apache Kafka, распределенной потоковой обработке событий (Event Stream Processing), конфигурации безопасности Kerberos, интеграции с Apache NiFi, Spark, Flume, Zookeeper.
Прежде всего курс предназначен для специалистов, желающих получить и систематизировать свои знания по использованию Apache Kafka для организации распределенной потоковой обработке событий (Event Stream Processing) на практических примерах с потоковыми данными в реальном времени. Курс содержит расширенные сведения по установке распределенного кластера Apache Kafka, настройке безопасности Kerberos, интеграции с другими продуктами, мониторингу и оптимизации Kafka в соответствии с «best practices».
Слушатели:
Данный курс ориентирован на специалистов, желающих изучить методы распределенной обработки очереди сообщений Kafka с использованием практических примеров реализации.
Предварительная подготовка:
Начальный опыт работы в Unix/SQL;
Начальный опыт программирования (Java).
Введение в Apache Kafka
Сценарии использования Kafka
Компоненты Kafka и Kafka экосистемы
Архитектура Kafka
Кластер Zookeeper
Потоковая Обработка Событий (Event Stream Processing): терминология и основные концепции; сравнение Hadoop и Spark.
Основные концепции Apache Kafka
Как работает Kafka: топики (Topics) и партиции (Partitions); репликация данных.
Брокеры (Brokers): развертывание; конфигурация Multibroker.
Поставщики данных (Producers): типы партиций; синхронные и асинхронные Producers; параметры конфигурации. Java API.
Потребители данных (Consumers): очереди Consumers; широковещание (Broadcasting); особенности использования RDD; RDD lineage.
Установка кластера Apache Kafka
Требования по установке кластера Kafka.
Установка и настройка кластера Zookeeper: настройка кворума; конфигурация сервисов и файловой системы; оптимизация и отказоустойчивость Zookeeper.
Установка и настройка кластера Kafka: планирование установки и sizing кластера Kafka; типовые проблемы при установке; запуск и первоначальное конфигурирование Kafka; конфигурация Listeners; отказоусточивость кластера Kafka; Kafka-менеджер.
Установка кластера Kafka на AWS.
Базовые операции в Apache Kafka
Операции с топиками (Topic)
Публикация данных с консольного Producer
Получение данных с консольного Consumer
Пользовательские интерфейсы топика Kafka (Topics UI)
Написание кода producer
Написание кода consumer
Альтернатива RDDs.
Оптимизация кластера Apache Kafka
Оптимизация производительности компонентов кластера
Масштабирование кластера
Балансировка разделов (partition) и использование Partition Reassignment Tools
Best Practices
Мониторинг кластера Kafka.
Интеграция с Apache Kafka
Интеграция Spark и Spark Streaming
Интеграция потоковой обработки Spark Streaming и Kafka
Использование Apache NiFi
Интеграция Apache Flume с Kafka
Расширенная конфигурация кластера Apache Kafka
Расширенная конфигурация топиков (Topic): изменение конфигурации топиков; Sizing (количество партиций и фактор репликации); сегменты и индексы; политика очистки логов (Log Cleanup Policy); сжатие и консолидация данных в логах.
Пользовательский интерфейс Landoop Kafka Topics
Confluent REST Proxy
Настройка Confluent Schema Registry
Архитектура Kafka Connect.
Безопасность в Kafka
Шифрование SSL: установка центра сертификатов (CA); настройка SSL для Kafka кластера и клиентов.
Аутентификация SSL/SASL
Аутентификация Kerberos: настройка Kerberos; Keytabs и principals; настройка кластера Kafka и клиентов для поддержки Kerberos.
Авторизация в Kafka
Управление списками управления доступом (ACL).