Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Нур-Султан, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

направление: Hadoop SQL Hive администратор кол-во дней: 1
вендор: Hadoop кол-во часов: 8

Это практический тренинг по настройке доступа к большим данным в распределенной файловой системе HDFS (платформа Hadoop) с помощью интерфейса Hadoop SQL Hive. В нем рассматриваются аспекты доступа к не структурированным данным с использованием Apache Hive, Cloudera Impala, Apache HBase, Spark SQL, использование и оптимизация запросов операций JOIN и SELECT, оптимизация доступа с помощью партиций и buckets.

Курс будет полезен для администраторов и разработчиков Apache Hive. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД и NoSQL, организация и оптимизация хранения данных с использованием Hive на HDFS, вопросы интеграции с другими инструментами экосистемы Hadoop. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks, Arenadata.

Слушатели:

Ориентирован на специалистов SQL имеющих опыт работы с реляционными базами данных для организации хранения, настройке импорта и экспорта данных с использованием Apache Hive в кластере Hadoop и желающих его применить.

Предварительная подготовка:

  • Начальный опыт работы в Unix

  • Начальный опыт работы с SQL

1. Основные концепции Hive

  • Архитектура Hive.

  • Инструменты администрирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.

  • Схема чтения и записи в Hive.

  • Структура и формат хранения файлов HIVE.

  • Синтаксис HiveQL. Hive DDL и DML операции.

2. Импорт и экспорт в Hive

  • Загрузка данных в таблицы Hive.

  • Внешние и управляемые таблицы.

  • Оптимизации производительности с использование Partition, Buckets.

  • Импорт/экспорт данных БД.

  • Форматы хранения данных и применение компрессии.

3. Реализация JOIN в Hive

  • Map JOIN.

  • Comon JOIN.

  • Skewed JOIN.

  • Collocated JOIN.

  • Форматы хранения данных и применение компрессии.

4. Advanced Hive

  • Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.

  • Thrift сервер

  • User Defined Functions

  • Hive на Spark.

  • Hive на Tez

5. Сценарии применения Hive