Цель курса – Курс позволяет познакомиться с инжинирингом данных в его связи с работой с пакетными и работающими в реальном времени аналитическими решениями с использованием технологий платформ данных Azure. Слушатели поймут основные технологии вычислений и хранения, которые используются для построения аналитического решения. Слушатели также узнают, как интерактивно исследовать данные, хранящиеся в файлах в Azure Data Lake.
Аудитория
Курс предназначен для специалистов в области данных, архитекторов данных и специалистов по бизнес-аналитике, желающие узнать об инжиниринге данных или построении аналитических решений с использованием технологий платформ данных, существующих в Microsoft Azure. Вторичная аудитория этого курса — аналитики данных и специалисты по обработке данных, которые работают с аналитическими решениями, построенными на Microsoft Azure.
По окончании курса слушатели смогут:
-
Описать технологии Azure Synapse Analytics, Azure Databricks, хранилище Azure Data Lake, архитектуру Delta Lake, Azure Stream Analytics
-
Понимать возможности бессерверных пулов SQL Azure Synapse
-
Выполнять запросы данных в озере с использованием бессерверных пулов SQL Azure Synapse
-
Создавать объекты метаданных в бессерверных пулах SQL Azure Synapse
-
Защищать данные и управлять пользователями в бессерверных пулах SQL Azure Synapse
-
Осуществлять чтение и запись данных в Azure Databricks
-
Работать с DataFrames в Azure Databricks
-
Работать с расширенными методами DataFrames в Azure Databricks
-
Описывать инжиниринг больших данных с помощью Apache Spark в Azure Synapse Analytics
-
Получать данные с помощью Apache Spark в Azure Synapse Analytics
-
Преобразовывать данные с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
-
Интегрировать пулы SQL и Apache Spark в Azure Synapse Analytics
-
Принимать петабайты данных с помощью Azure Data Factory
-
Осуществлять интеграцию данных с помощью Azure Data Factory
-
Осуществлять безкодовое преобразование в масштабе с помощью Azure Data Factory
-
Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines
-
Обеспечивать защиту хранилища данных в Azure Synapse Analytics
-
Настраивать ключи в Azure Key Vault и управлять ими
-
Реализовывать контроль соответствия для конфиденциальных данных
-
Разрабатывать гибридную транзакционную и аналитическую обработку с использованием Azure Synapse Analytics
-
Настраивать Azure Synapse Link с помощью Azure Cosmos DB
-
Писать запрос к Azure Cosmos DB с помощью Apache Spark для Azure Synapse Analytics
-
Писать запрос к Azure Cosmos DB с помощью безсерверного SQL пула для Azure Synapse Analytics
-
Обеспечивать надежный обмен сообщениями для приложений Big Data с использованием Azure Event Hubs
-
Работать с потоками данных с использованием Azure Stream Analytics
-
Обрабатывать потоковые данные с помощью Azure Databricks
Необходимая подготовка
Для эффективного обучения на курсе слушатели должны обладать следующими знаниями и навыками:
-
Знание основ Azure;
-
Знание облачных вычислений;
-
Практический опыт работы с большими данными.
Модуль 1: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных
Темы
-
Знакомство с Azure Synapse Analytics
-
Описание Azure Databricks
-
Знакомство с хранилищем Azure Data Lake
-
Описание архитектуры Delta Lake
-
Работа с потоками данных с использованием Azure Stream Analytics
Лабораторная работа: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных
-
Объединение потоковой и пакетной обработки в одном конвейере
-
Упорядочение озера данных в уровни преобразования файлов
-
Индексирование хранилища озера данных для ускорения запросов и загрузки
Модуль 2: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics
Темы
-
Исследование возможностей бессерверных пулов SQL Azure Synapse
-
Запрос данных в озере с использованием бессерверных пулов SQL Azure Synapse
-
Создание объектов метаданных в бессерверных пулах SQL Azure Synapse
-
Защита данных и управление пользователями в бессерверных пулах SQL Azure Synapse
Лабораторная работа: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics
-
Выполнение запроса данных Parquet с помощью бессерверных пулов SQL
-
Создание внешних таблиц для файлов Parquet и CSV
-
Создание представлений с помощью бессерверных пулов SQL
-
Защита доступа к данным в озере данных во время использования бессерверных пулов SQL
-
Настройка безопасности озера данных с использованием контроля доступа на основе ролей (RBAC) и списка контроля доступа (Access Control List)
Модуль 3: Исследование и преобразование данных в Azure Databricks
Темы
-
Обзор Azure Databricks
-
Чтение и запись данных в Azure Databricks
-
Работа с DataFrames в Azure Databricks
-
Работа с расширенными методами DataFrames в Azure Databricks
Лабораторная работа: Исследование и преобразование данных в Azure Databricks
-
Использование DataFrames в Azure Databricks для исследования и фильтрации данных
-
Кэширование DataFrame для более быстрого выполнения последующих запросов
-
Удаление дублирующихся данных
-
Работа со значениями дат/времени
-
Удаление и переименование столбцов DataFrame
-
Агрегирование данных, хранящихся в DataFrame
Модуль 4: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark
Темы
-
Понимание инжиниринга больших данных с помощью Apache Spark в Azure Synapse Analytics
-
Получение данных с помощью Spark в Azure Synapse Analytics
-
Преобразование данных с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
-
Интеграция пулов SQL и Apache Spark в Azure Synapse Analytics
Лабораторная работа: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark
-
Исследование данных в Synapse Studio
-
Получение данных с помощью Spark в Azure Synapse Analytics
-
Преобразование данных с помощью DataFrames в пулах Spark в Azure Synapse Analytics
-
Интеграция пулов SQL и Spark в Azure Synapse Analytics
Модуль 5: Получение и загрузка данных в хранилище данных
Темы
-
Использование лучших практик загрузки данных в Azure Synapse Analytics
-
Прием петабайтов данных с помощью Azure Data Factory
Лабораторная работа: Получение и загрузка данных в хранилище данных
-
Получение петабайтов данных с помощью Azure Synapse Pipelines
-
Импорт данных с помощью PolyBase и COPY с использованием T-SQL
-
Использование лучших практик загрузки данных в Azure Synapse Analytics
Модуль 6: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines
Темы
-
Интеграция данных с помощью Azure Data Factory или Azure Synapse Pipelines
-
Безкодовое преобразование и масштабирование с помощью Azure Data Factory или Azure Synapse Pipelines
Лабораторная работа: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines
-
Выполнение безкодовых преобразований и масштабирования с помощью Azure Synapse Pipelines
-
Создание конвейера данных для импорта файлов CSV с неправильным форматом
-
Создание потоков сопоставления данных
Модуль 7: Управление перемещением и преобразованием данных в Azure Synapse Pipelines
Темы
-
Оркестрация перемещения и преобразования данных в Azure Data Factory
Лабораторная работа: Управление перемещением и преобразованием данных в Azure Synapse Pipelines
-
Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines
Модуль 8: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics
Темы
-
Защита хранилища данных в Azure Synapse Analytics
-
Настройка ключей в Azure Key Vault и управление ими
-
Реализация контроля соответствия для конфиденциальных данных
Лабораторная работа: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics
-
Защита поддерживающей инфраструктуры Azure Synapse Analytics
-
Защита рабочей области Azure Synapse Analytics и управляемых служб
-
Защита данных рабочей области Azure Synapse Analytics
Модуль 9: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link
Темы
-
Разработка гибридной транзакционной и аналитической обработки с использованием Azure Synapse Analytics
-
Настройка Azure Synapse Link с помощью Azure Cosmos DB
-
Запрос к Azure Cosmos DB с помощью пулов Apache Spark
-
Запрос к Azure Cosmos DB с помощью бессерверных пулов SQL
Лабораторная работа: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link
-
Настройка Azure Synapse Link с помощью Azure Cosmos DB
-
Запрос к Azure Cosmos DB с помощью Apache Spark для Synapse Analytics
-
Запрос к Azure Cosmos DB с помощью бессерверного пула SQL для Azure Synapse Analytics
Модуль 10: Потоковая обработка в реальном времени с помощью Stream Analytics
Темы
-
Обеспечение надежного обмена сообщениями для приложений Big Data с использованием Azure Event Hubs
-
Работа с потоками данных с использованием Azure Stream Analytics
-
Получение потоков данных с использованием Azure Stream Analytics
Лабораторная работа: Потоковая обработка в реальном времени с помощью Stream Analytics
-
Использование Stream Analytics для обработки данных от Event Hubs в режиме реального времени
-
Использование оконных функций Stream Analytics для построения агрегатов и вывода в Synapse Analytics
-
Масштабирование задания Azure Stream Analytics для увеличения пропускной способности с помощью секционирования
-
Повторное разбиение входных данных потока для оптимизации распараллеливания
Модуль 11: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks
Темы
-
Обработка потоковых данных с помощью структурированной потоковой передачи Azure Databricks
Лабораторная работа: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks
-
Изучение основных функций и вариантов использования структурированной потоковой передачи
-
Потоковая передача данных из файла и их запись в распределенную файловую систему
-
Использование скользящих окон для агрегирования блоков данных, а не всех данных
-
Применение водяных знаков для удаления устаревших данных
-
Подключение к потокам чтения и записи Event Hubs