Курс: Основы работы с большими данными (Data Science)
Продолжительность курса: 16 ак. ч.
Описание курса:
В процессе деятельности любая компания постоянно ищет новые способы развития: оптимизирует производство, улучшает бизнес-процессы, увеличивает вложения в рекламу и маркетинг, повышает уровень сервиса. Но если успехи компании сходят на нет, зачастую сложно понять, что именно идет не так и почему.
Есть область, ресурсы которой еще не исчерпаны – это Data Science. Накопленные в компании данные, полученные из разных источников, таят в себе огромный потенциал. Грамотный анализ больших объемов разнородных данных (Big Data), выведение скрытых закономерностей приводят аналитиков порой к неожиданным открытиям и выводам. Оперируя этими сведениями, можно вывести свою компанию в лидеры рынка.
Этот курс – введение в сложную и многогранную область науки по работе с большими данными – Data Science.
Аудитория:
• Руководители компаний и подразделений
• Линейные менеджеры
• Бизнес-аналитики
• Разработчики
• Другие сотрудники, вовлеченные в аналитическую деятельность компании
Необходимая подготовка:
Успешное окончание курса «Microsoft Excel. Уровень 1. Работа с табличным редактором Excel», или эквивалентная подготовка.
Программа курса:
Модуль 1. Область применения больших данных. Типовые задачи
• Цели курса
• Определение основных понятий
• История науки о данных
• Выгоды от работы с большими данными
• Типовые задачи: прогноз продаж, производства, спроса. Анализ поведения. Распознавание образов. Экспертные системы
Модуль 2. Сбор и подготовка исходных данных. Методика CRISP-DM
• С чего начать. Межотраслевая стандартная методика работы с данными CRISP-DM.
• Описательное и ассоциативное исследование исходных данных.
• Сегментирование и очистка данных (slice and dice). Примеры инструментов Excel.
• Визуализация данных в Excel. Как использовать сводные таблицы и диаграммы.
• «Озера данных» (Data lakes).
• Отличия озер данных от структурированных хранилищ.
• Обзор инструментария.
• Практическая работа. Сегментировать и очистить тестовый набор данных.
Модуль 3. Основы математической статистики, ANOVA. Надстройка Excel «Пакет анализа»
• Описательная статистика.
• Среднее, наиболее вероятное, медиана.
• Дисперсия, стандартное отклонение, стандартная ошибка.
• Виды распределений.
• Пакет анализа данных Excel.
• Обзор других прикладных средств работы с данными (R, Python, Octave, MathLab, специализированные БД).
• Практическая работа. Определить статистические характеристики выборки данных.
Модуль 4. Задача прогноза продаж. Понятие машинного обучения. Корреляция. Регрессионный анализ
• Постановка задачи оценки взаимосвязи между различными факторами и построение прогноза.
• Корреляция. Коэффициент Пирсона.
• Критерий Стьюдента (T-анализ).
• Основы машинного обучения.
• Регрессионный анализ.
• Построение и анализ трендов в Excel.
• Регрессионный анализ на трендах.
• Практическая работа. Определить наличие корреляции и регрессионную зависимость между двумя выборками данных. Построить тренд.
Модуль 5. Задачи классификации и распознавания образов, видео, речи, текста. Понятие нейронных сетей. Примеры применения
• Задача сегментации дискретных данных на примере задач распознавания (графика, речь, текст).
• Нейронные сети как инструмент решения задач классификации.
• Демонстрация источников библиотек и no-code.
Модуль 6. Задача исследования социальных сетей. Задача прогнозирования поведения пользователя. Социальные и направленные графы. Деревья решений. Примеры применения
• Задачи классификации данных в социальных сетях и поиска оптимального решения (маршрута).
• Графы как инструмент решения задач на социальных графах и прогнозирования поведения.
• Дерево решений.
• Разбиение на выборки (обучающую, тестовую, проверочную).
• Анализ ошибок обучения. Базис и отклонения. Ручная корректировка.
• Практическая работа: провести классификацию набора данных и его разбиение на сегменты.
Модуль 7. Продвинутые инструменты: глубокое машинное обучение, искусственный интеллект, нечеткие множества
• Понятие Deep Machine Learning.
• Понятия естественного языка и нечетких логик.
• Многофакторный бизнес-анализ на примере нечетких логик.
Модуль 8. Профориентация по специальностям в Data Science. Выводы и рекомендации по построению и организации работы команды
• Роли специалистов по DS: аналитик данных, ученый по данным, программист, цифровой директор.
• Требования к компетенциям и взаимодействию сотрудников в области аналитики данных.
• Состав и требования к проектной команде для DS.
• Подготовка компании к применению «бигдата».
Окончательная цена указывается в договоре на обучение.