Курс: Data Pipeline на Apache Airflow и Apache Hadoop

Курс: Data Pipeline на Apache Airflow и Apache Hadoop

Курс: Data Pipeline на Apache Airflow и Apache Hadoop


Продолжительность курса: 24 ак. ч.

Описание курса:
Курс обучения по Apache Airflow и Hadoop позволит вам получить и систематизировать знания по использованию этих фреймворков для разработки эффективных конвейеров обработки больших данных. Курс содержит расширенные сведения по вопросам разработки на Apache Airflow и интеграции этой платформы с Apache Spark и Livy в соответствии с лучшими практиками (best practices).

Аудитория:
• Инженеры данных;
• Системные архитекторы;
• DevOps-инженеры;
• Разработчики Hadoop;
• Специалисты BigData.

Необходимая подготовка:
Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano), начальный опыт программирования Python/bash, опыт работы с Apache Hadoop или прослушанный курс: ADHI: Основы Arenadata Hadoop или INTR: Основы Hadoop.

Программа курса:

Модуль 1. Введение в Apache Airflow:
• История создания, основные задачи и роль Airflow в экосистеме обработки данных;
• Ключевые элементы: DAG, операторы, таски, сенсоры. Построение логики через DAG;
• Механизмы выполнения: типы executors, организация параллельного и последовательного запуска задач;
• Настройка расписаний и триггеров для автоматического запуска DAG;
• Основные компоненты Airflow: scheduler, web-интерфейс, роли систем;
• Система уведомлений и ведение логов выполнения;
• Работа с переменными и XCom для обмена данными между задачами;
• Подключение к внешним системам через Connection;
• Конфигурирование Airflow под нужды проекта.

Модуль 2. Разработка ETL-процессов в Airflow:
• Этапы создания и настройки DAG;
• Использование популярных операторов;
• Интеграция Python и Bash скриптов в DAG;
• Создание пользовательских операторов и сенсоров;
• Применение connection для работы с внешними источниками;
• Использование хуков (hooks) в практической работе;
• Обмен данными через XCom и переменные;
• Шаблонизация с помощью Jinja;
• Настройка сложных расписаний и нюансы их применения.

Модуль 3. Знакомство с Hadoop:
• Что такое большие данные и где применяется Hadoop;
• Архитектура и ключевые компоненты экосистемы;
• Хранение и обработка информации в Hadoop;
• Особенности дистрибутива Arenadata Hadoop;
• Работа с Apache Zeppelin и использование компонентов дистрибутива.

Модуль 4. Apache Spark: основы и практика:
• Общая архитектура и составные части фреймворка;
• Работа с интерфейсом Apache Zeppelin;
• Основные структуры данных: DataFrame, RDD;
• Подключение источников данных и использование Spark SQL;
• Реализация конвейерной обработки данных через Spark.

Модуль 5. Apache Livy: интеграция с Airflow:
• Обзор архитектуры Livy;
• Возможности REST API;
• Подключение Airflow к Spark и Livy;
• Проектирование ETL-конвейера;
• Пример реализации обработки данных на базе Arenadata Hadoop.


Окончательная цена указывается в договоре на обучение.

Характеристики курса

  • Начало: Ведется набор
  • Вендор: Arenadata
  • Код курса: ARD11
  • Город: Пермь, Москва,
  • Направление: Курсы для IT-специалистов
  • Академических часов: 24
  • Количество мест: 8
  • Очно: 75900 ₽
  • Дистанционно: 75900 ₽
Записаться на курс

Курсы повышения квалификации
и профессиональной переподготовки


График работы:
Мы отвечаем на звонки и письма в будние дни с 7:00 до 16:00 по Мск

8 800 (600)-66-16

Владелец сайта:
АНО ДПО «Учебный центр «ШИФТ»
ИНН 5904355180
ОГРН 1175958039586
Юридический адрес: 614010, г. Пермь, ул. Клары Цеткин, д. 14, офис 32.
E-mail: info@eshift.ru