Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Нур-Султан, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

направление: Фреймворк Apache Spark для разработчиков продвинутый уровень кол-во дней: 3
вендор: Apache кол-во часов: 24

Описание

Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming.и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark под управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуются преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst. 

Цели

  • Понимать внутреннее устройство Spark;

  • Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);

  • Научиться оптимизировать программы, обрабатывающие RDD;

  • Понимать механизмы оптимизации программ на Spark SQL;

  • Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.

Целевая аудитория

Разработчики, архитекторы

Предварительная подготовка

Опыт разработки на Java или Scala под Apache Spark от 3 месяцев. 

  • Внутренняя архитектура Spark, Spark Runtime Environment
  • Настройка Spark Context, SparkConf
  • Внутреннее устройство RDD, логический план
  • Лучшие практики программирования с RDD
  • Физический план: работы, стадии, задачи
  • Планировщики и выполнение физического плана
  • Настройка памяти, сериализация, кеширование, сборка мусора
  • Datasource API, внутреннее представление данных Tungsten, форматы файлов
  • Оптимизатор Catalyst
  • Микропакетный Spark Streaming: получение и выдача данных
  • Structured Streaming: получение и выдача данных