Сколько нужно собрать данных, чтобы принять правильное решение?

В 1974 году психолог Paul Slovic провел интересный эксперимент. Он пригласил 8 профессиональных судей на лошадиных скачках и попросил предсказать победителей в 4 раундах тестирования, по 10 забегов в каждом, а затем оценить свою уверенность относительно предсказания.

Что из этого вышло?


В первом раунде участники могли запросить 5 любых данных. Кто-то спрашивал про годы опыта жокея, кто-то больше интересовался максимальной скоростью лошади.

Точность предсказания оказалась 17%
Уверенность: 19% (что, в принципе, не сильно отличается от реального показателя).

Во втором раунде участникам дали 10 кусочков информации. В третьем – 20, в четвертом 40. Что интересно, точность их предсказания по сравнению с первым раундом не изменилась, осталась на уровне 17%. Зато уверенность с дополнительными 35 фактами выросла практически вдвое – до 34%!

Это распространенное заблуждение: чем больше у тебя данных в наличии, тем больше шансов, что ты примешь правильное решение. В разработке такое случается сплошь и рядом: продакт организовал дорогое качественное исследование, загрузил аналитика на месяц, и потом на основе результатов запустил разработку на год. Это, конечно, преувеличение, но в той или иной степени происходит очень часто.

Собранные данные не должны давать вам confirmation bias и чрезмерную уверенность в решении. Собранные данные не освобождают вас от необходимости start small и запускать сначала что-то минимальное.

Ну да, и в любом случае: всегда должна быть экономическая обоснованность сбора данных. Для каждого проекта это свой порог, свои 5 или больше необходимых кусочков информации. Не собирайте избыточные данные просто потому, что «можете», — понимайте, зачем они вам, какой риск вы пытаетесь минимизировать.