BIG DATA
ДЛЯ АНАЛИТИКОВ

оффлайн / онлайн
23 сентября 2019
14 недель
Старт 23 сентября 2019

Big Data для аналитиков

о курсе_
Интенсивный курс по изучению машинного обучения и анализа данных. 28 занятий за 14 недель. Онлайн и оффлайн-формат.

Что вы получите

Умение создавать добавленную стоимость с помощью Data Science и машинного обучения, сертификат и рекомендации на работу
До курса
Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу.
А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python. Также у нас есть подготовительный курс для желающих вникнуть в Big Data.
На занятиях
Мы не только читаем лекции, но и решаем реальные бизнес-задачи с помощью машинного обучения как на малых, так и больших данных. Практика на каждом занятии.
Все участники соревнуются между собой в течение всего обучения. Финал — реальное состязание на Kaggle.
Полный апгрейд
После окончания школы всем участникам выдаются сертификаты. Лучшие получают рекомендацию на работу мечты.
Также участники смогут самостоятельно применять на практике представленные в школе методы машинного обучения и решать задачи анализа данных.

Почему вам стоит выбрать нас

Наша программа и преподаватели неразрывно связаны с бизнес-задачами и современными методами их решения с помощью аналитики данных

1
Нашему курсу 5 лет
Если вы хотите узнать, как с помощью современных методов анализа данных (машинное обучение, обработка текста, анализ графов, deep learning) решать задачи бизнеса и имеете минимальные навыки программирования на Python, тогда эта школа для вас.
2
Ориентация на бизнес-результат
Мы сразу начинаем с типичных аналитических задач из разных индустрий. Пытаемся понять их бизнес-смысл, экономический эффект, операционные рычаги и только после этого - переходим к современным методам, которые могут эту задачу решить.
3
Удобный формат
Каждое занятие проходит на интерактивной платформе с записью и трансляцией из аудитории, чтобы даже удаленные участники чувствовали себя комфортно и могли общаться с коллегами почти как вживую. Мы работаем в Jupyter-тетрадках на облачной инфраструктуре, имеем собственный Slack-чат для общения студентов, а также — большое комьюнити выпускников.

Программа курса

28 уроков разбиты так, чтобы пройтись по всем основным методам анализа данных, которые уже сейчас применяются в реальных задачах. Мы не будем рассматривать доказательства теорем, очередные модификации градиентных бустингов или статьи с последних научных конференций. Изучим только то, что применяется в реальной жизни.
1. Введение в машинное обучение. Основные типы задач и методы их решения
Теория
  • Введение в машинное обучение, необходимые навыки
  • Задачи классификации, регрессии и кластеризации
  • Извлечение, отбор и преобразование признаков
  • Особенности решения задач машинного обучения
  • Обзор инструментов для решения задач машинного обучения
  • Обзор графовых задач
  • Знания, необходимые для успешного освоения науки о данных
  • Особенности обработки больших данных
  • Workflow решения задач анализа данных
  • Конкретные примеры решения задач анализа данных
2. Библиотеки и инструменты для анализа данных. Математика в машинном обучении
Теория
  • Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
  • Работа с векторами и матрицами в библиотеке NumPy
  • Обзор библиотеки для научных вычислений SciPy
  • Визуализация данных с Matplotlib и Seaborn
  • Чтение и обработка данных с библиотекой Pandas
Практика
  • Визуализация и предварительный анализ данных соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
  • Первичный анализ данных с Seaborn
  • Решение задачи соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
3. Семинар. Настройка environment (Anaconda, виртуальная машина). Практика с pandas, numpy, matplotlib, seaborn
4. Обучение с учителем. Задачи классификации и регрессии
Теория
  • Деревья решений
  • Энтропия, прирост информации и неопределенность Джинни
  • Алгоритмы ID3, C 4.5, CART
  • Работа с признаками – отбор, преобразование, построение
Практика
  • Применение дерева решений Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass по автострахованию
  • Настройка параметров дерева, кросс-валидация
  • Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
  • Практика на применение дерева решений и случайного леса к набору данных соревнования "Titanic: Machine Learning from Disaster"
5. Оценка качества алгоритмов машинного обучения
Теория
  • Обзор библиотеки машинного обучения Scikit-learn
  • Метрики качества алгоритмов машинного обучения - доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
  • Случай несбалансированных классов
  • Случай классификации на несколько классов
  • Логистическая регрессия
  • Метод опорных векторов (Support Vector Machine), ядра
Практика
  • Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
  • Примеры решения задач классификации и регрессии — наборы данных UCI
Посмотреть всю программу
6. Семинар. Решение задач классификации с Kaggle. Альтернативные метрики качества алгоритмов классификации
7. Продвинутые методы классификации и регрессии. Переобучение. Теория
Теория
  • Нейронные сети, алгоритм обратного распространения ошибки
  • Построение ансамблей алгоритмов
  • Случайный лес (Random Forest)
  • Бустинг (boosting) и бэггинг (bagging), Xgboost
  • Стекинг
  • Переобучение, кросс-валидация, регуляризация
  • Пример регуляризации для логистической регрессии
8. Продвинутые методы классификации и регрессии. Переобучение. Практика
Теория
  • Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
  • Случайный лес на примере набора данных Titanic
  • Случайный лес на примере набора данных по автострахованию
  • Практика использования библиотек Lasagne NN и Xgboost
  • Разбор решения задачи Kaggle «Otto Group Product Classification
  • Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)
9. Обучение без учителя
Теория
  • Введение в обучение без учителя
  • Задача кластеризации — алгоритм k-means
  • Иерархическая кластеризация
  • Спектральная кластеризация
  • Плотностные методы кластеризации
  • Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
  • Поиск выбросов и аномалий в данных - статистический подход, одноклассовая машина опорных векторов
Практика
  • Пример поиска аномалий в данных
10. Семинар. Решение задач классификации и регрессии с Kaggle. Борьба с переобучением
11. Анализ социальных сетей. Теория
Теория
  • Введение в теорию графов
  • Классические алгоритмы на графах
  • Поиск в ширину и поиск в глубину
  • Алгоритм PageRank
  • Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
  • Кластеризация на графах/обнаружение в соц. сетях
12. Анализ социальных сетей. Практика
Практика
  • Применение машинного обучения в графовых задачах
  • Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
  • Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
  • Обзор инструментов для работы с графами
13. Семинар. Решение алгоритмических задач на графах.
14. Обнаружение знаний в данных
Теория
  • Поиск частых множеств (товаров) и ассоциативные правила
  • Алгоритмы Apriori и FP-growth
  • Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
  • Поиск паттернов с ограничениями
  • Поиск частых последовательностей
  • Поиск частых подграфов
Практика
  • Знакомство с инструментом SPMF
  • Анализ последовательностей на примере демографических данных
15. Рекомендательные системы
Теория
  • Введение в коллаборативную фильтрацию
  • Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
  • Оценка качества рекомендательной системы
  • Рекомендации на основе ассоциативных правил
  • Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
  • Мультимодальная кластеризация и рекомендации в фолксономиях
Практика
  • Case-study: рекомендация радиостанций
16. Семинар. Разработка собственной рекомендательной системы кинофильмов. Решение проблемы холодного старта, разработка метрик качества алгоритмов рекомендации
17. Обработка текстов. Теория
Теория
  • Задачи обработки естественного языка (NLP)
  • Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
  • Модели представления текстов: мешок слов, VSM, синтаксические деревья
  • Современные методы: word2vec, topic modeling
18. Обработка текстов. Практика
Практика
  • Поиск ключевых слов
  • Определение сходства документов
  • Кластеризация текстов
  • Поиск похожих слов
19. Семинар. Подробный обзор библиотеки NLTK, решение задач с Kaggle.
20. Введение в анализ больших данных и масштабируемое машинное обучение. Теория
Теория
  • Машинное обучение: подход MapReduce, онлайн-обучение
  • Стохастический градиентный спуск
  • Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
  • Обзор инструмента Apache Spark
  • Введение в функциональное программирование (map, filter, reduce, lambda-функции)
  • Обзор библиотек MLlib и GraphX Apache Spark
  • Коллаборативная фильтрация с Apache Spark
21. Введение в анализ больших данных и масштабируемое машинное обучение. Практика
Практика
  • Практика использования функций map, filter, reduce и lambda-функций
  • Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
  • Анализ веб-логов с Apache Spark
  • Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
  • Пример решения задачи классификации со Spark MLlib
  • Предсказание кликов пользователей с Apache Spark
22. Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit. Теория и практика
Теория
  • Что делать, если мало оперативной памяти
  • Введение в онлайн обучение
  • Метрики качества - progressive loss
  • Выбор функции потерь
  • Hashing trick
  • Подбор параметров регуляризации при он-лайн-обуяении
  • Дообучение алгоритмов
Практика
  • Обзор инструмента vowpal wabbit
  • Пример решения задачи в 2 строки с помощью vowpal wabbit
  • Обзор нестандартных параметров vw
23. Семинар. Практика с Apache Spark, разбор альтернативных методов работы с большими данными
24. Соревнования по анализу данных. Теория
Теория
  • Обзор платформы Kaggle
  • Зачем нужны соревнования по анализу данных
  • Особенности задач в соревнованиях по машинному обучению
  • Отличия задач соревнований по анализу данных от реальных бизнес-задач
  • Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя
25. Соревнования по анализу данных. Практика
Практика
  • Решение задачи Kaggle «Greek Media Monitoring Multilabel Classification(WISE 2014)»
  • Работа с категориальными признаками, различные подходы
  • Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб
26. Семинар. Разбор нестандартных задач с Kaggle.
27. Deep Learning
Теория и практика
  • Введение в нейронные сети
  • Обзор возможностей нейронных сетей
  • Задачи обработки текстов
  • Задачи обработки изображений и видео (Computer Vision)
  • Инструменты (Theano, TensorFlow, Keras)
  • Разбор классических задач Deep Learning
28. Продуктовая аналитика
Теория и практика
  • Тестирование гипотез в продуктовой аналитике
  • Маркетинговые метрики качества алгоритмов машинного обучения
  • Оценка экономического эффекта моделей
  • Основные B2C метрики: CAC, LT, LTV, ARPU, ARPPU
  • Модели машинного обучения в CRM

Наши преподаватели

Мы подбирали преподавателей по ряду критериев: максимальное количество завершенных проектов по анализу данных, работа в настоящий момент в бизнесе

Сергей Марин
Основатель, директор Школы, преподаватель на курсе для менеджеров по особенностям применения Big Data в бизнесе
Основатель и директор Школы Данных и Студии Данных. Ранее, основатель и глава департамента Больших Данных компании Вымпелком (бренд "Билайн"). Руководитель направления Business Intelligence и Data Mining ООО Адидас, руководитель направления Business Intelligence в нидерландском KPN и ведущий менеджер продуктов в Hewlett-Packard. Выпускник факультета ВМиК Московского Государственного Университета им. Ломоносова, выпускник программы MBA Московской Школы Управления Сколково
Станислав Семенов
Преподаватель в специализации соревнования по анализу данных и машинное обучение, ранее первый в мире по рейтингу Kaggle
Консультант в области машинного обучения, номер 1 аналитик данных (Data Scientist) в мире по рейтингу Kaggle. Ранее HFT-аналитик в Quantstellation, преподаватель в Школе Анализа Данных Яндекс, портфельный аналитик в Тинькофф банк. Закончил Московский Физико-Технический Институт (МФТИ) и Высшую Школу Экономики (ВШЭ). Выпускник Школы Анализа Данных Яндекс
Дмитрий Игнатов
Преподаватель, специализация рекомендательные системы и Data Mining
Кандидат Наук в области прикладной математики и анализа данных от Российской Академии Наук и Технического Университета Дрездена, заместитель руководителя департамента анализа данных и искусственного интеллекта Национального Исследовательского Университета Высшей Школы Экономики (НИУ ВШЭ)
Григорий Сапунов
Преподаватель, специализация Глубокое Обучение, распознавание изображений и нейронные сети
Со-основатель и CTO в Intent.to, компании, специализирующейся на Глубоком Обучении и когнитивных сервисах. Ранее, преподаватель Когнитивных наук в Высшей Школе Экономики, руководитель направления в Яндекс. Выпускник Московской Школы Экономики
Антон Алексеев
Преподаватель, специализация анализ естественного языка и нейронные сети
Исследователь в совместном центре Искусственного Интеллекта Самсунг-Математического Института В.А.Стеклова. Ранее, разработчик библиотек работы с данными, систем анализа естественного языка и чат-ботов
Мы сотрудничаем с компаниями Яндекс, Сбербанк, МТС и Газпромнефть по трудоустройству выпускников. Лучших — отбираем в свой консалтинговый бизнес на базе искусственного интеллекта под названием Студия Данных.
Где работают наши выпускники
Показать еще

Особенности курса

Мы сделали все, чтобы учиться было удобно.
И полезно.
Формат обучения
Занятия проходят как в формате вебинаров (онлайн), так и в формате семинаров. После записи и оплаты вы получите все инструкции.
Время занятий
Занятия проходят по будням с 19:00 до 21:00 два раза в неделю. Курс рассчитан на 28 уроков, то есть 3,5 месяца.
Что понадобится
Для эффективного прохождения курса необходимо владеть основами Python, а также базовыми знаниями линейной алгебры и теории вероятностей. Для прохождения курса вам потребуется ноутбук
Задания и ментор
В процессе обучения вам будет выделен ментор (один из преподавателей), который будет проверять все ваши задания и отвечать на ваши вопросы
Сертификат и рейтинг
По окончании курса, мы помогаем нашим выпускникам с трудоустройством. Среди наших партнеров Яндекс, МТС, Газпромнефть и другие. Также, у нас есть собственный консалтинговый бизнес, куда мы приглашаем наших выпускников
Стоимость курса
100 000 рублей. Возможна как единоразовая оплата, так и в кредит. После записи Вам будут предложены варианты оплаты

Запишитесь на курс

Стоимость курса составляет 100 000 рублей с одного участника
Нажимая на кнопку, вы соглашаетесь с нашей политикой обработки персональных данных.
Запишитесь на курс
Стоимость курса составляет 100 000 рублей с одного участника
Нажимая на кнопку, вы даете согласие на обработку персональных данных
и соглашаетесь c политикой конфиденциальности
О Школе Данных
Наша миссия — распространение технологий Big Data в бизнесе.
Мы помогаем компаниями внедрять технологии Big Data за счет обучения всех уровней и ролей компании эффективной работе с данными.
Школа Данных основана в 2015 году руководителями направлений Big Data и ведущими аналитиками данных из крупных банков, телекоммуникационных и розничных компаний в партнерстве с сотрудниками и преподавателями ведущих математических и экономических вузов.
Мы специализируемся на обучении аналитиков методам машинного обучения и Big Data, а менеджеров -правильной постановке задачи, взаимодействию с подразделениями аналитиков, выстраиванию организационной структуры и модификации бизнес и производственных процессов для внедрения технологий Big Data.
Если вас заинтересовал этот наш курс, вы можете посмотреть, что еще мы предлагаем, прокачаться самостоятельно, отправить на наши курсы ваших аналитиков. Чтобы узнать больше о самой Школе Данных, посетите её официальный сайт →.
Команда Студии и Школы Данных — одержала победу в региональном этапе федерального IT-конкурса «Цифровой прорыв». Подробности в материале →

Блог Школы Данных

Мы ведем блог, чтобы у вас всегда были свежие кейсы и еще больше информации по Big Data
Write Close
Close
Свяжитесь с нами
Telegram
WhatsApp
Mail
Phone