Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Нур-Султан, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

направление: Анализ больших данных (Big Data) с помощью Microsoft R кол-во дней: 3
вендор: Big Data кол-во часов: 24
код курса: 20773А

Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.

Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.

По окончании курса Вы будете уметь:

  • описывать работу Microsoft R;
  • использовать клиента R и Server R для обработки больших данных из разных хранилищ;
  • визуализировать данные с помощью графиков и схем;
  • преобразовывать и очищать наборы больших данных;
  • использовать способы разделения аналитических задач на параллельные задачи;
  • строить и оценивать регрессионные модели, генерируемые на основе больших данных;
  • создавать, оценивать и разворачивать партиционированные модели на основе больших данных; 
  • использовать язык R в средах SQL Server и Hadoop.

Специалисты, обладающие этими знаниями и навыками, в настоящее время крайне востребованы. Большинство выпускников наших курсов делают успешную карьеру и пользуются уважением работодателей.

 

Модуль 1. Сервер и клиент Microsoft R

  • Обзор сервера Microsoft R

  • Использование клиента Microsoft R

  • Функции ScaleR

Лабораторная работа: Обзор сервера и клиента Microsoft R

  • Использование клиента R в VSTR и RStudio

  • Обзор функций ScaleR

  • Подключение к удалённому серверу

Модуль 2. Обзор больших данных

  • Источники данных ScaleR

  • Чтение данных в XDF-объекте

  • Обобщение данных в XDF-объекте

Лабораторная работа: Обзор больших данных

  • Чтение локального CSV-файла и передача данных в XDF-файл

  • Преобразование данных на входе

  • Чтение данных из SQL Server и передача в XDF-файл

  • Подведение итогов в XDF-файле

Модуль 3. Визуализация больших данных

  • Визуализация данных в памяти

  • Визуализации больших данных

Лабораторная работа: Визуализация данных

  • Использование ggplot для создания многогранной диаграммы с наложением

  • Использование rxlinePlot и rxHistogram

Модуль 4. Обработка больших данных

  • Преобразование больших данных

  • Управление наборами данных

Лабораторная работа: Обработка больших данных

  • Преобразование больших данных

  • Сортировка и слияние больших данных

  • Подключение к удаленному серверу

Модуль 5. Распараллеливание операций анализа

  • Использование вычислительного контекста RxLocalParallel с функцией rxExec

  • Использование пакета revoPemaR

Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций

  • Использование rxExec для оптимизации использования ресурсов

  • Создание и применение класса PEMA

Модуль 6. Создание и оценка регрессионной модели

  • Кластеризации больших данных

  • Создание регрессионных моделей и подготовка прогнозов

Лабораторная работа: Создание линейной регрессионной модели

  • Создание кластера

  • Создание регрессионной модели

  • Генерация данных для составления прогнозов

  • Использование модели для составления прогнозов и сравнение результатов

Модуль 7. Создание и оценка партиционированных моделей (Partitioning Model)

  • Создание партиционированных моделей на основе дерева решений.

  • Тестирование прогнозов партиционированных моделей

Лабораторная работа: Создание и оценка партиционированных моделей

  • Разбиение набора данных

  • Построение моделей

  • Подготовка прогноза и тестирование результатов

  • Сравнение результатов

Модуль 8. Обработка больших данных в SQL Server и Hadoop

  • Использование R в SQL Server

  • Использование Map/Reduce в Hadoop

  • Использование Hadoop Spark

Лабораторная работа: Обработка больших данных в SQL Server и Hadoop

  • Создание модели и прогнозирования результатов в SQL Server

  • Анализ и вывод результата с помощью Map/Reduce в Hadoop

  • Интеграция скрипта sparklyr в рабочий процесс ScaleR