Курс: Data Pipeline на Apache Airflow и Apache Hadoop
Курс: Data Pipeline на Apache Airflow и Apache Hadoop
Продолжительность курса: 24 ак. ч.
Описание курса:
Курс обучения по Apache Airflow и Hadoop позволит вам получить и систематизировать знания по использованию этих фреймворков для разработки эффективных конвейеров обработки больших данных. Курс содержит расширенные сведения по вопросам разработки на Apache Airflow и интеграции этой платформы с Apache Spark и Livy в соответствии с лучшими практиками (best practices).
Необходимая подготовка:
Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano), начальный опыт программирования Python/bash, опыт работы с Apache Hadoop или прослушанный курс: ADHI: Основы Arenadata Hadoop или INTR: Основы Hadoop.
Программа курса:
Модуль 1. Введение в Apache Airflow:
• История создания, основные задачи и роль Airflow в экосистеме обработки данных;
• Ключевые элементы: DAG, операторы, таски, сенсоры. Построение логики через DAG;
• Механизмы выполнения: типы executors, организация параллельного и последовательного запуска задач;
• Настройка расписаний и триггеров для автоматического запуска DAG;
• Основные компоненты Airflow: scheduler, web-интерфейс, роли систем;
• Система уведомлений и ведение логов выполнения;
• Работа с переменными и XCom для обмена данными между задачами;
• Подключение к внешним системам через Connection;
• Конфигурирование Airflow под нужды проекта.
Модуль 2. Разработка ETL-процессов в Airflow:
• Этапы создания и настройки DAG;
• Использование популярных операторов;
• Интеграция Python и Bash скриптов в DAG;
• Создание пользовательских операторов и сенсоров;
• Применение connection для работы с внешними источниками;
• Использование хуков (hooks) в практической работе;
• Обмен данными через XCom и переменные;
• Шаблонизация с помощью Jinja;
• Настройка сложных расписаний и нюансы их применения.
Модуль 3. Знакомство с Hadoop:
• Что такое большие данные и где применяется Hadoop;
• Архитектура и ключевые компоненты экосистемы;
• Хранение и обработка информации в Hadoop;
• Особенности дистрибутива Arenadata Hadoop;
• Работа с Apache Zeppelin и использование компонентов дистрибутива.
Модуль 4. Apache Spark: основы и практика:
• Общая архитектура и составные части фреймворка;
• Работа с интерфейсом Apache Zeppelin;
• Основные структуры данных: DataFrame, RDD;
• Подключение источников данных и использование Spark SQL;
• Реализация конвейерной обработки данных через Spark.
Модуль 5. Apache Livy: интеграция с Airflow:
• Обзор архитектуры Livy;
• Возможности REST API;
• Подключение Airflow к Spark и Livy;
• Проектирование ETL-конвейера;
• Пример реализации обработки данных на базе Arenadata Hadoop.
Окончательная цена указывается в договоре на обучение.