Шпаргалка себе Data Scientist’у

Мы начнём с очень поучительной истории про то, как иногда надо решать задачи анализа данных. О ней полезно помнить студентам, которые слишком увлекаются «сложными алгоритмами» и верят, что чем больше математической составляющей в алгоритме, тем качественнее его решение.

(далее…)

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

(далее…)

Что такое матрица ошибок и зачем она нужна: пример расчета стоимости ошибки прогнозирования

Поскольку в бизнесе поиск баланса между спросом и предложением напрямую конвертируется в деньги, возникает вопрос, насколько выгодно применение методов Machine Learning для решения этой задачи. С целью сопоставления предсказаний и реальности в Data Science используется матрица ошибок (confusion matrix) – таблица с 4 различными комбинациями прогнозируемых и фактических значений. 

(далее…)

Основные модели машинного обучения

Машинное обучение — как секс в старших классах. Все говорят о нем по углам, единицы понимают, а занимается только препод. Статьи о машинном обучении делятся на два типа: это либо трёхтомники с формулами и теоремами, которые я ни разу не смог дочитать даже до середины, либо сказки об искусственном интеллектепрофессиях будущего и волшебных дата-саентистах.

(далее…)

В чем разница между Gini coefficient и Gini impurity

Многие путаются в коэффициентах Джини, не понимают, что они бывают разные и для разных задач (и названия у них разные — просто в русском переводе, как всегда, многое схлопывается в один термин).

(далее…)

XP NRG. Ждём встречи с Джеки!

XP NRG — первые в мире создатели искусственного сознания

Новая передача на АЛЛАТРА ТВ «XP NRG – первые в мире создатели искусственного сознания» ломает привычные стереотипы. В чём польза и опасность искусственного сознания? В каких условиях должны работать специалисты? А также – кто такой Джеки? Журналисты АЛЛАТРА ТВ побывали в гостях у IT-компании XP NRG. Их встретили Игорь Михайлович Данилов (инициатор и координатор проекта) и Алексей (директор и ведущий специалист).

(далее…)

Как обойти строки dataframe в цикле (pandas)

Как обойти строки dataframe в цикле (pandas)

В первую очередь хочется сказать, что обходить датафрейм не самая лучшая затея из-за плохой производительности и гораздо лучше будет воспользоваться альтернативными методами в виде функции apply (рассмотрим ниже). Если же все-таки потребовалось проитерироваться по строкам в DataFrame, то приведу код ниже. Однако использовать его стоит лишь для небольших дата-сетов.

(далее…)

Гибкое управление Data Science-продуктами

Гибкое управление Data Science-продуктами

Однажды в ScrumTrek за помощью обратилась компания с data science-продуктами. Казалось бы, работа понятна и схема отработана: рассказать, что такое Agile, собрать бэклог, запустить спринт — 3 дня работы. 3, не 3, но через 3 месяца точно что-то начнет получаться, а через 3 года вообще все будет отлично.

(далее…)

Аналитикам: большая шпаргалка по Pandas

Большая шпаргалка по Pandas

Привет. Я задумывал эту заметку для студентов курса, на котором мы учим маркетологов автоматизировать свою работу с помощью программирования, но решил поделиться шпаргалкой по Pandas со всеми. Я ожидаю, что читатель умеет писать код на Python хотя бы на минимальном уровне, знает, что такое списки, словари, циклы и функции.

(далее…)

Как сделать первую версию нового продукта: пошаговый план

Как сделать первую версию нового продукта: пошаговый план

У многих есть такой друг-продакт, который придумал, как сделать звездолёт, когда пользователь хотел получить звонок курьера перед доставкой.

(далее…)