Курс: Обработка Данных с Microsoft HDInsight

Продолжительность курса: 40 ак. ч.

Формат обучения:
• Очно - на территории нашего учебного центра или на территории Заказчика (для корпоративных клиентов)
• Онлайн обучение с помощью вебинаров в режиме "здесь и сейчас"
• Дистанционно с помощью системы СДО в любое удобное для вас время

Описание курса:
Цель курса: Предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Аудитория:
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.

Необходимая подготовка:
• Опыт программирования на R и знание распространенных пакетов R
• Знания общих статистических методов анализа данных и лучших практик
• Основные сведения о операционных системах Microsoft Windows
• Опыт работы с реляционными базами данных

Результат обучения:
После изучения курса слушатель будет уметь:
• Описать Hadoop, MapReduce, HDInsight
• Описать типы кластеров HDInsight
• Описать создание, управление и удаление кластеров HDInsight с помощью PowerShell
• Описать, как разрешать доступ пользователей к объектам
• Описать конфигурации и архитектуру хранилища HDInsight
• Проводить мониторинг ресурсов с Operations management suite
• Выполнять запросы с Hive и Pig
• Описать использование ETL и Spark
• Внедрить интерактивные запросы
• Выполнить интерактивную обработку данных с помощью Apache Phoenix
• Управлять задачами потоковой аналитики
• Создать приложения для обработки структурированных потоков в Spark
• Использовать потоковые данные в Storm
• Объяснить, как работает язык R
• Преобразовывать и зачищать наборы данных

Программа курса:
Модуль 1. Начало работы с HDInsight
• Большие данные
• Hadoop
• MapReduce
• HDInsight
• Лабораторная работа. Запросы к большим данным
• Запросы к данным с Hive
• Запросы к данным с Excel

Модуль 2. Развертывание кластеров HDInsight
• Типы кластеров HDInsight
• Управление кластерами HDInsight
• Управление кластерами HDInsight с помощью PowerShell
• Лабораторная работа. Управление кластерами HDInsight в Azure
• Создать кластер Hadoop в HDInsight
• Настроить HDInsight с помощью скрипта
• Настроить HDInsight с помощью Bootstrap
• Удалить кластер HDInsight

Модуль 3. Авторизация пользователей для доступа к ресурсам
• Недоменные кластеры
• Настройка кластера HDInsight, подключенного к домену
• Управление подключенным к домену кластером HDInsight
• Лабораторная работа. Авторизация пользователей для доступа к ресурсам
• Настройка кластера HDInsight, подключенного к домену
• Настроить политики Hive

Модуль 4. Загрузка данных в HDInsight
• Хранилище HDInsigh
• Средства загрузки данных
• Производительность и надёжность
• Лабораторная работа. Загрузка данных в HDInsight
• Загрузка данных с помощью Sqoop
• С помощью загрузка данных в AZcopy
• Загрузка данных с помощью ADLcopy
• Использовать HDInsight для сжатия данных

Модуль 5. Поиск и устранение неисправностей в HDInsight
• Анализ журналов
• Журналы YARN
• Дампы кучи (Heap)
• Operations management suite
• Лабораторная работа. Поиск и устранение неисправностей в HDInsight
• Анализ журналов HDInsight
• Анализ журналов YARN
• Мониторинг ресурсов с Operations management suite

Модуль 6. Внедрение пакетных решений
• Хранилище Apache Hive
• Запросы с Hive и Pig
• Подключение HDInsight
• Лабораторная работа. Резервное копирование баз данных SQL Server
• Загрузка данных в таблицу Hive
• Запрос данных в Hive и Pig

Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
• Что такое Spark?
• ETL и Spark
• Производительность Spark
• Лабораторная работа. Проектирование пакетных решений ETL для больших данных с помощью Spark
• Создание кластера HDInsight с доступом к хранилищу Data Lake
• Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
• Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
• Управление ресурсами кластера Apache Spark в Azure HDInsight

Модуль 8. Анализ данных со Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
• Лабораторная работа. Анализ данных со Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных

Модуль 9. Анализ данных с помощью Hive и Phoenix
• Внедрение интерактивных запросов для больших данных с помощью Hive
• Проведение исследовательского анализа данных с помощью Hive
• Выполнение интерактивной обработки данных с помощью Apache Phoenix
• Лабораторная работа. Анализ данных с помощью Hive и Phoenix
• Внедрение интерактивных запросов для больших данных с помощью Hive
• Проведение исследовательского анализа данных с помощью Hive
• Выполнение интерактивной обработки данных с помощью Apache Phoenix

Модуль 10. Потоковая аналитика
• Потоковая аналитика
• Обработка потоковых данных из потоковой аналитики
• Управление задачами потоковой аналитики
• Лабораторная работа. Внедрение потоковой аналитики
• Обработка потоковых данных из потоковой аналитики
• Управление задачами потоковой аналитики

Модуль 11. Spark Streaming и DStream API
• DStream
• Создание приложений для обработки структурированных потоков в Spark
• Стабильность и визуализация
• Лабораторная работа. Использование DStream API для создания приложений Spark Streaming
• Создание приложения Spark Streaming с помощью DStream API
• Создание приложения для обработки структурированных потоков в Spark

Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
• Долго хранимые данные
• Потоковые данные в Storm
• Создание топологии Storm
• Настройка Apache Storm
• Лабораторная работа. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
• Потоковые данные в Storm
• Создание топологии Storm

Модуль 13. Анализ данных с помощью Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
• Лабораторная работа. Анализ данных с помощью Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных

Окончательная цена указывается в договоре на обучение.

Характеристики курса

Начало: Ведется набор
Вендор: Microsoft
Код курса: 20775
Город: Екатеринбург, Пермь, Челябинск, Самара, Ижевск, Киров, Москва,
Направление: Курсы для IT-специалистов
Академических часов: 40
Количество мест: 8
Очно: 39900 ₽
Дистанционно: 39900 ₽

Записаться на курс