Формат обучения:
• Очно - на территории нашего учебного центра или на территории Заказчика (для корпоративных клиентов)
• Онлайн обучение с помощью вебинаров в режиме "здесь и сейчас"
• Дистанционно с помощью системы СДО в любое удобное для вас время
Описание курса:
Цель курса: Предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Аудитория:
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
Необходимая подготовка:
• Опыт программирования на R и знание распространенных пакетов R
• Знания общих статистических методов анализа данных и лучших практик
• Основные сведения о операционных системах Microsoft Windows
• Опыт работы с реляционными базами данных
Результат обучения: После изучения курса слушатель будет уметь:
• Описать Hadoop, MapReduce, HDInsight
• Описать типы кластеров HDInsight
• Описать создание, управление и удаление кластеров HDInsight с помощью PowerShell
• Описать, как разрешать доступ пользователей к объектам
• Описать конфигурации и архитектуру хранилища HDInsight
• Проводить мониторинг ресурсов с Operations management suite
• Выполнять запросы с Hive и Pig
• Описать использование ETL и Spark
• Внедрить интерактивные запросы
• Выполнить интерактивную обработку данных с помощью Apache Phoenix
• Управлять задачами потоковой аналитики
• Создать приложения для обработки структурированных потоков в Spark
• Использовать потоковые данные в Storm
• Объяснить, как работает язык R
• Преобразовывать и зачищать наборы данных
Программа курса:
Модуль 1. Начало работы с HDInsight
• Большие данные
• Hadoop
• MapReduce
• HDInsight
• Лабораторная работа. Запросы к большим данным
• Запросы к данным с Hive
• Запросы к данным с Excel
Модуль 2. Развертывание кластеров HDInsight
• Типы кластеров HDInsight
• Управление кластерами HDInsight
• Управление кластерами HDInsight с помощью PowerShell
• Лабораторная работа. Управление кластерами HDInsight в Azure
• Создать кластер Hadoop в HDInsight
• Настроить HDInsight с помощью скрипта
• Настроить HDInsight с помощью Bootstrap
• Удалить кластер HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
• Недоменные кластеры
• Настройка кластера HDInsight, подключенного к домену
• Управление подключенным к домену кластером HDInsight
• Лабораторная работа. Авторизация пользователей для доступа к ресурсам
• Настройка кластера HDInsight, подключенного к домену
• Настроить политики Hive
Модуль 4. Загрузка данных в HDInsight
• Хранилище HDInsigh
• Средства загрузки данных
• Производительность и надёжность
• Лабораторная работа. Загрузка данных в HDInsight
• Загрузка данных с помощью Sqoop
• С помощью загрузка данных в AZcopy
• Загрузка данных с помощью ADLcopy
• Использовать HDInsight для сжатия данных
Модуль 5. Поиск и устранение неисправностей в HDInsight
• Анализ журналов
• Журналы YARN
• Дампы кучи (Heap)
• Operations management suite
• Лабораторная работа. Поиск и устранение неисправностей в HDInsight
• Анализ журналов HDInsight
• Анализ журналов YARN
• Мониторинг ресурсов с Operations management suite
Модуль 6. Внедрение пакетных решений
• Хранилище Apache Hive
• Запросы с Hive и Pig
• Подключение HDInsight
• Лабораторная работа. Резервное копирование баз данных SQL Server
• Загрузка данных в таблицу Hive
• Запрос данных в Hive и Pig
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
• Что такое Spark?
• ETL и Spark
• Производительность Spark
• Лабораторная работа. Проектирование пакетных решений ETL для больших данных с помощью Spark
• Создание кластера HDInsight с доступом к хранилищу Data Lake
• Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
• Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
• Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8. Анализ данных со Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
• Лабораторная работа. Анализ данных со Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
• Внедрение интерактивных запросов для больших данных с помощью Hive
• Проведение исследовательского анализа данных с помощью Hive
• Выполнение интерактивной обработки данных с помощью Apache Phoenix
• Лабораторная работа. Анализ данных с помощью Hive и Phoenix
• Внедрение интерактивных запросов для больших данных с помощью Hive
• Проведение исследовательского анализа данных с помощью Hive
• Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10. Потоковая аналитика
• Потоковая аналитика
• Обработка потоковых данных из потоковой аналитики
• Управление задачами потоковой аналитики
• Лабораторная работа. Внедрение потоковой аналитики
• Обработка потоковых данных из потоковой аналитики
• Управление задачами потоковой аналитики
Модуль 11. Spark Streaming и DStream API
• DStream
• Создание приложений для обработки структурированных потоков в Spark
• Стабильность и визуализация
• Лабораторная работа. Использование DStream API для создания приложений Spark Streaming
• Создание приложения Spark Streaming с помощью DStream API
• Создание приложения для обработки структурированных потоков в Spark
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
• Долго хранимые данные
• Потоковые данные в Storm
• Создание топологии Storm
• Настройка Apache Storm
• Лабораторная работа. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
• Потоковые данные в Storm
• Создание топологии Storm
Модуль 13. Анализ данных с помощью Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
• Лабораторная работа. Анализ данных с помощью Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
Окончательная цена указывается в договоре на обучение.
Характеристики курса
Начало: Ведется набор
Вендор: Microsoft
Код курса: 20775
Город: Екатеринбург, Пермь, Челябинск, Самара, Ижевск, Киров, Москва,