Machine learning в продакшн — Flask REST API

Обученная модель машинного обучения сама по себе пользу бизнесу не принесет. Модель должна быть интегрирована в IT инфраструктуру компании. Рассмотрим реализацию REST API микросервиса на примере задачи классификации цветов Ирисов. Набор данных состоит из длины и ширины двух типов лепестков Ириса: sepal и petal. Целевая переменная — это сорт Ириса: 0 — Setosa, 1 — Versicolor, 2 — Virginica.

(далее…)

Извлекаем email адреса из текста при помощи Google Sheets

Предположим что у вас есть задача извлечь адреса электронных почт из ячеек, в которых кроме имейлов содержится и другая информация в текстовом формате.

(далее…)

Работа с Excel из Python: Полное руководство с примерами

Узнайте, как читать и импортировать файлы Excel в Python, как записывать данные в эти таблицы и какие библиотеки лучше всего подходят для этого.

(далее…)

Искусственное сознание создано. Джеки (XP NRG) vs Алиса (Яндекс) vs Siri (Apple)

То, о чем говорил американский ученый Джон Маккарти в 1956 году, а именно появление искусственного интеллекта, свершилось. Компания XP NRG разработала искусственное сознание и назвала его в честь Джеки Чана.

(далее…)

Шпаргалка себе Data Scientist’у

Мы начнём с очень поучительной истории про то, как иногда надо решать задачи анализа данных. О ней полезно помнить студентам, которые слишком увлекаются «сложными алгоритмами» и верят, что чем больше математической составляющей в алгоритме, тем качественнее его решение.

(далее…)

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

(далее…)

Что такое матрица ошибок и зачем она нужна: пример расчета стоимости ошибки прогнозирования

Поскольку в бизнесе поиск баланса между спросом и предложением напрямую конвертируется в деньги, возникает вопрос, насколько выгодно применение методов Machine Learning для решения этой задачи. С целью сопоставления предсказаний и реальности в Data Science используется матрица ошибок (confusion matrix) – таблица с 4 различными комбинациями прогнозируемых и фактических значений. 

(далее…)

Основные модели машинного обучения

Машинное обучение — как секс в старших классах. Все говорят о нем по углам, единицы понимают, а занимается только препод. Статьи о машинном обучении делятся на два типа: это либо трёхтомники с формулами и теоремами, которые я ни разу не смог дочитать даже до середины, либо сказки об искусственном интеллектепрофессиях будущего и волшебных дата-саентистах.

(далее…)

В чем разница между Gini coefficient и Gini impurity

Многие путаются в коэффициентах Джини, не понимают, что они бывают разные и для разных задач (и названия у них разные — просто в русском переводе, как всегда, многое схлопывается в один термин).

(далее…)

XP NRG. Ждём встречи с Джеки!

XP NRG — первые в мире создатели искусственного сознания

Новая передача на АЛЛАТРА ТВ «XP NRG – первые в мире создатели искусственного сознания» ломает привычные стереотипы. В чём польза и опасность искусственного сознания? В каких условиях должны работать специалисты? А также – кто такой Джеки? Журналисты АЛЛАТРА ТВ побывали в гостях у IT-компании XP NRG. Их встретили Игорь Михайлович Данилов (инициатор и координатор проекта) и Алексей (директор и ведущий специалист).

(далее…)