Дополнительная дата проведения курса: 13.10.2025 - 07.11.2025
Продолжительность курса: 144 ак. ч.
Описание курса:
С нашим курсом вы решите любые аналитические задачи, автоматизируете рутину, сможете обрабатывать большие объемы информации. Тем самым, вы сможете оперативно выявить проблемные места, выдвинуть нужную гипотезу и предложить оптимальное решение для улучшения бизнес-процессов.
Каждую секунду мы создаем новые данные: общаемся в мессенджерах, выкладываем фотографии, делаем покупки онлайн, бронируем авиабилеты, пользуемся навигаторами. Вся генерируемая в процессе информация накапливается и сохраняется. Но она оказывается полезной лишь в том случае, когда ее удается расшифровать, обработать и интерпретировать. Этими процессами занимается аналитик данных. Он ищет закономерности, визуализирует, интерпретирует, выявляет проблемные места, выдвигает гипотезы и на основе полученной информации предлагает оптимальные решения для улучшения бизнес-процессов.
Программа курса:
Модуль 1. Введение:
• Знакомство. Регламент. Ожидания от курса;
• Data Driven подход в принятии решений;
• Специализации в DataScience;
• Аналитик данных: стадии работы, инструменты;
• Типовые задачи.
Модуль 2. Введение в Python:
• Интерактивная оболочка Jupyter Notebook;
• Интерактивная облачная среда Google Colab;
• Простые типы данных;
• Логические операторы и условные конструкции;
• Списки;
• Конструкции циклов;
• Кортежи;
• Множества;
• Словари;
• Генераторы;
• Функции;
• Импорт пакета;
• Работа с исключениями;
• Классы и объекты;
• Регулярные выражения.
Модуль 3. Анализ данных на Python:
• Работа с Pandas;
• Обзор библиотеки Pandas;
• Базовые операции;
• Режим презентации в Jupyter Notebook;
• Структуры данных;
• Чтение и запись данных из файлов;
• Срезы данных;
• Фильтрация по условию;
• Добавление, выравнивание, сортировка данных;
• Работа с индексами в Pandas;
• Функции в Pandas;
• Очистка данных;
• Математические операции;
• Агрегирование данных.
Модуль 4. Библиотека Numpy:
• Одномерные массивы;
• Многомерные массивы.
Модуль 5. Визуализация данных:
• Визуализация данных;
• Работа со стандартными средствами визуализации в Pandas;
• Визуализация в Matplotlib;
• Визуализация в Seaborn.
Модуль 6. Статистический анализ:
• Основы статистики и теории вероятностей;
• Генеральная совокупность и выборка;
• Описательные статистики;
• Гистограмма и эмпирическая функция распределения;
• Распределения и описательные статистики;
• Зависимые и независимые случайные величины;
• Ковариация и корреляция;
• Нормальное распределение и его свойства;
• Центрирование и нормирование;
• Стандартное нормальное распределение;
• Правило 3-х сигм;
• Поиск выбросов и аномалий;
• Масштабирование и категориальные переменные.
Модуль 7. Проверка гипотез, точки роста бизнеса:
• Доверительные интервалы;
• Гипотезы;
• p_value;
• Ошибки 1 и 2 рода;
• Виды критериев;
• Параметрические критерии для долей, средних и дисперсий.
Модуль 8. A/B тестирование:
• Схема АБ-тестирования;
• Проблемы, возникающие при проведении АБ-тестов и способы их решить;
• АБ тесты в офлайне, естественные эксперименты;
• Множественная проверка гипотез;
• Количество наблюдений для проведения эксперимента;
• Метрики для АБ-тестирования.
Окончательная цена указывается в договоре на обучение.