Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Астана, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

Даты проведения курса

Выберите удобное для вас число,
запишитесь на курс, заполнив простую форму

город: Алматы
08.07.2025
-
11.07.2025 Подтвержден
записаться на курс
направление: Microsoft Power Platform and BI Analytics кол-во дней: 4
вендор: Microsoft кол-во часов: 32
код курса: DP-203

Цель курса – Курс позволяет познакомиться с инжинирингом данных в его связи с работой с пакетными и работающими в реальном времени аналитическими решениями с использованием технологий платформ данных Azure. Слушатели поймут основные технологии вычислений и хранения, которые используются для построения аналитического решения. Слушатели также узнают, как интерактивно исследовать данные, хранящиеся в файлах в Azure Data Lake.

Аудитория

Курс предназначен для специалистов в области данных, архитекторов данных и специалистов по бизнес-аналитике, желающие узнать об инжиниринге данных или построении аналитических решений с использованием технологий платформ данных, существующих в Microsoft Azure. Вторичная аудитория этого курса — аналитики данных и специалисты по обработке данных, которые работают с аналитическими решениями, построенными на Microsoft Azure.

По окончании курса слушатели смогут:

  • Описать технологии Azure Synapse Analytics, Azure Databricks, хранилище Azure Data Lake, архитектуру Delta Lake, Azure Stream Analytics
  • Понимать возможности бессерверных пулов SQL Azure Synapse
  • Выполнять запросы данных в озере с использованием бессерверных пулов SQL Azure Synapse
  • Создавать объекты метаданных в бессерверных пулах SQL Azure Synapse
  • Защищать данные и управлять пользователями в бессерверных пулах SQL Azure Synapse
  • Осуществлять чтение и запись данных в Azure Databricks
  • Работать с DataFrames в Azure Databricks
  • Работать с расширенными методами DataFrames в Azure Databricks
  • Описывать инжиниринг больших данных с помощью Apache Spark в Azure Synapse Analytics
  • Получать данные с помощью Apache Spark в Azure Synapse Analytics
  • Преобразовывать данные с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
  • Интегрировать пулы SQL и Apache Spark в Azure Synapse Analytics
  • Принимать петабайты данных с помощью Azure Data Factory
  • Осуществлять интеграцию данных с помощью Azure Data Factory
  • Осуществлять безкодовое преобразование в масштабе с помощью Azure Data Factory
  • Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines
  • Обеспечивать защиту хранилища данных в Azure Synapse Analytics
  • Настраивать ключи в Azure Key Vault и управлять ими
  • Реализовывать контроль соответствия для конфиденциальных данных
  • Разрабатывать гибридную транзакционную и аналитическую обработку с использованием Azure Synapse Analytics
  • Настраивать Azure Synapse Link с помощью Azure Cosmos DB
  • Писать запрос к Azure Cosmos DB с помощью Apache Spark для Azure Synapse Analytics
  • Писать запрос к Azure Cosmos DB с помощью безсерверного SQL пула для Azure Synapse Analytics
  • Обеспечивать надежный обмен сообщениями для приложений Big Data с использованием Azure Event Hubs
  • Работать с потоками данных с использованием Azure Stream Analytics
  • Обрабатывать потоковые данные с помощью Azure Databricks

Необходимая подготовка

Для эффективного обучения на курсе слушатели должны обладать следующими знаниями и навыками:

  • Знание основ Azure;
  • Знание облачных вычислений;
  • Практический опыт работы с большими данными.

 

Модуль 1: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных

Темы

  • Знакомство с Azure Synapse Analytics
  • Описание Azure Databricks
  • Знакомство с хранилищем Azure Data Lake
  • Описание архитектуры Delta Lake
  • Работа с потоками данных с использованием Azure Stream Analytics

Лабораторная работа: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных

  • Объединение потоковой и пакетной обработки в одном конвейере
  • Упорядочение озера данных в уровни преобразования файлов
  • Индексирование хранилища озера данных для ускорения запросов и загрузки

Модуль 2: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics

Темы

  • Исследование возможностей бессерверных пулов SQL Azure Synapse
  • Запрос данных в озере с использованием бессерверных пулов SQL Azure Synapse
  • Создание объектов метаданных в бессерверных пулах SQL Azure Synapse
  • Защита данных и управление пользователями в бессерверных пулах SQL Azure Synapse

Лабораторная работа: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics

  • Выполнение запроса данных Parquet с помощью бессерверных пулов SQL
  • Создание внешних таблиц для файлов Parquet и CSV
  • Создание представлений с помощью бессерверных пулов SQL
  • Защита доступа к данным в озере данных во время использования бессерверных пулов SQL
  • Настройка безопасности озера данных с использованием контроля доступа на основе ролей (RBAC) и списка контроля доступа (Access Control List)

Модуль 3: Исследование и преобразование данных в Azure Databricks

Темы

  • Обзор Azure Databricks
  • Чтение и запись данных в Azure Databricks
  • Работа с DataFrames в Azure Databricks
  • Работа с расширенными методами DataFrames в Azure Databricks

Лабораторная работа: Исследование и преобразование данных в Azure Databricks

  • Использование DataFrames в Azure Databricks для исследования и фильтрации данных
  • Кэширование DataFrame для более быстрого выполнения последующих запросов
  • Удаление дублирующихся данных
  • Работа со значениями дат/времени
  • Удаление и переименование столбцов DataFrame
  • Агрегирование данных, хранящихся в DataFrame

Модуль 4: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark

Темы

  • Понимание инжиниринга больших данных с помощью Apache Spark в Azure Synapse Analytics
  • Получение данных с помощью Spark в Azure Synapse Analytics
  • Преобразование данных с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
  • Интеграция пулов SQL и Apache Spark в Azure Synapse Analytics

Лабораторная работа: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark

  • Исследование данных в Synapse Studio
  • Получение данных с помощью Spark в Azure Synapse Analytics
  • Преобразование данных с помощью DataFrames в пулах Spark в Azure Synapse Analytics
  • Интеграция пулов SQL и Spark в Azure Synapse Analytics

Модуль 5: Получение и загрузка данных в хранилище данных

Темы

  • Использование лучших практик загрузки данных в Azure Synapse Analytics
  • Прием петабайтов данных с помощью Azure Data Factory

Лабораторная работа: Получение и загрузка данных в хранилище данных

  • Получение петабайтов данных с помощью Azure Synapse Pipelines
  • Импорт данных с помощью PolyBase и COPY с использованием T-SQL
  • Использование лучших практик загрузки данных в Azure Synapse Analytics

Модуль 6: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines

Темы

  • Интеграция данных с помощью Azure Data Factory или Azure Synapse Pipelines
  • Безкодовое преобразование и масштабирование с помощью Azure Data Factory или Azure Synapse Pipelines

Лабораторная работа: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines

  • Выполнение безкодовых преобразований и масштабирования с помощью Azure Synapse Pipelines
  • Создание конвейера данных для импорта файлов CSV с неправильным форматом
  • Создание потоков сопоставления данных

Модуль 7: Управление перемещением и преобразованием данных в Azure Synapse Pipelines

Темы

  • Оркестрация перемещения и преобразования данных в Azure Data Factory

Лабораторная работа: Управление перемещением и преобразованием данных в Azure Synapse Pipelines

  • Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines

Модуль 8: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics

Темы

  • Защита хранилища данных в Azure Synapse Analytics
  • Настройка ключей в Azure Key Vault и управление ими
  • Реализация контроля соответствия для конфиденциальных данных

Лабораторная работа: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics

  • Защита поддерживающей инфраструктуры Azure Synapse Analytics
  • Защита рабочей области Azure Synapse Analytics и управляемых служб
  • Защита данных рабочей области Azure Synapse Analytics

Модуль 9: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link

Темы

  • Разработка гибридной транзакционной и аналитической обработки с использованием Azure Synapse Analytics
  • Настройка Azure Synapse Link с помощью Azure Cosmos DB
  • Запрос к Azure Cosmos DB с помощью пулов Apache Spark
  • Запрос к Azure Cosmos DB с помощью бессерверных пулов SQL

Лабораторная работа: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link

  • Настройка Azure Synapse Link с помощью Azure Cosmos DB
  • Запрос к Azure Cosmos DB с помощью Apache Spark для Synapse Analytics
  • Запрос к Azure Cosmos DB с помощью бессерверного пула SQL для Azure Synapse Analytics

Модуль 10: Потоковая обработка в реальном времени с помощью Stream Analytics

Темы

  • Обеспечение надежного обмена сообщениями для приложений Big Data с использованием Azure Event Hubs
  • Работа с потоками данных с использованием Azure Stream Analytics
  • Получение потоков данных с использованием Azure Stream Analytics

Лабораторная работа: Потоковая обработка в реальном времени с помощью Stream Analytics

  • Использование Stream Analytics для обработки данных от Event Hubs в режиме реального времени
  • Использование оконных функций Stream Analytics для построения агрегатов и вывода в Synapse Analytics
  • Масштабирование задания Azure Stream Analytics для увеличения пропускной способности с помощью секционирования
  • Повторное разбиение входных данных потока для оптимизации распараллеливания

Модуль 11: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks

Темы

  • Обработка потоковых данных с помощью структурированной потоковой передачи Azure Databricks

Лабораторная работа: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks

  • Изучение основных функций и вариантов использования структурированной потоковой передачи
  • Потоковая передача данных из файла и их запись в распределенную файловую систему
  • Использование скользящих окон для агрегирования блоков данных, а не всех данных
  • Применение водяных знаков для удаления устаревших данных
  • Подключение к потокам чтения и записи Event Hubs