Узнайте всё о технологии предиктивной сегментации
Logo

Иван Дюлай

Копирайтер

Предиктивная сегментация 102: Технологии и Метрики

Маркетинг прошел долгий путь с момента своего зарождения тысячи лет назад. И вместе с ним совершенствовались и наши инструменты. От глиняных табличек и бумажных записных книжек до электронных таблиц и передовых систем искусственного интеллекта. Мы постоянно стремимся к лучшим результатам и ищем новые способы их достижения. При этом мы не хотим выполнять рутинную работу, и это понятно — у нас слишком много задач, чтобы делать все вручную.

Именно поэтому сфера автоматизации маркетинга стремительно развивается. Мы создаем контент и текст с помощью ИИ, генерируем персонализированные рекомендации товаров и автоматизируем рутинные процессы и сценарии. Все это позволяет добиваться лучших результатов, затрачивая меньше времени.

Сегментация клиентов долгое время оставалась той частью маркетинга, которую было сложно автоматизировать. По крайней мере, до недавнего времени. Однако с появлением предиктивной сегментации (которую мы уже рассматривали ранее) мы можем группировать клиентов автоматически — при этом получая превосходные результаты.

В этой статье мы разберем технологии, лежащие в ее основе, чтобы вы знали все необходимое для повышения эффективности маркетинговых кампаний. И мы постараемся объяснить это как можно проще, чтобы у вас не болела голова от сложных статистических терминов. Ведь у нас, маркетологов, и так достаточно задач, требующих внимания, верно?

Основы предиктивной сегментации vs. дескриптивные методы

Сегментация — это важная техника в маркетинге. Ее цель — разделить клиентскую базу на отдельные группы на основе общих характеристик. Традиционно сегментация выполнялась вручную в зависимости от бизнес-целей и набора условий. Например, определенный продукт может рекламироваться исключительно для женщин, а акция показываться только пользователям мобильных устройств.

Эти методы также называют описательными, поскольку они фокусируются на группировке существующих клиентских данных (то есть «описывают» их). Мы уже рассматривали некоторые из самых распространенных подходов в предыдущей статье, но, на всякий случай, еще раз сделаем краткий обзор.

Демографическая сегментация
Этот фундаментальный подход делит клиентов на основе общих черт, таких как возраст, пол, доход и уровень образования. Например, люксовый бренд может ориентироваться на профессионалов с высоким доходом в возрасте 40+, а ритейлер fast-fashion — на более молодых клиентов со средним уровнем дохода. Компании могут создавать точные комбинации этих условий, например «замужние женщины 25–34 лет с высшим образованием», чтобы точно нацеливать маркетинг и разрабатывать продукты.

Географическая сегментация
Таргетинг по местоположению учитывает не только физическое расположение клиентов, но и контекст их среды. Гео-сегментация включает различия между городскими и сельскими районами, климатические условия, плотность населения и культурные предпочтения в конкретных регионах. Современные методы, такие как геофенсинг, позволяют компаниям в реальном времени охватывать клиентов в определенных местах. Ритейлер может корректировать ассортимент в зависимости от погодных условий региона, а ресторан адаптировать меню под местные вкусовые предпочтения. Этот метод особенно полезен для бизнеса, который выходит на новые рынки или оптимизирует логистику.

Психографическая сегментация
Этот анализ исследует психологические аспекты поведения потребителей, включая образ жизни, ценности, интересы и отношение к брендам. Он помогает понять, почему клиенты принимают те или иные решения, распределяя их на категории, такие как «энтузиасты ЗОЖ», «ранние последователи технологий» или «эко-осознанные потребители». Компании используют эту информацию, чтобы создавать маркетинговые сообщения, которые находят отклик у целевой аудитории, формируя более сильную эмоциональную связь с брендом.

Поведенческая сегментация
Анализируя, как клиенты взаимодействуют с продуктами или услугами, бизнес может разделять их на основе действий, а не характеристик. Такие действия могут включать частоту покупок, лояльность к бренду, интенсивность использования продукта и реакцию на маркетинговые предложения. Например, IT-компания может разделить пользователей на активных и редких, а ритейлер определить клиентов, ориентированных на скидки, и тех, кто покупает премиальные товары. Такой подход помогает разрабатывать стратегии удержания клиентов и персонализированные кампании.

Сегментация по клиентской ценности
Этот метод фокусируется на экономических аспектах взаимодействия клиентов с бизнесом, включая пожизненную ценность клиента, частоту покупок и средний чек. Компании используют его, чтобы определить наиболее прибыльные сегменты клиентов и понять, что делает их ценными. Это помогает принимать стратегические решения о распределении ресурсов и инвестировать больше в привлечение и удержание клиентов с высокой ценностью.

RFM-сегментация

Этот эффективный метод объединяет три ключевых показателя для оценки и сегментации клиентов:

  • Recency (давность последней покупки) — насколько недавно клиент совершал покупку.
  • Frequency (частота покупок) — как часто клиент совершает покупки.
  • Monetary value (денежная ценность) — сколько средств клиент тратит.

Например, клиент, который совершил покупку на прошлой неделе, делает заказы каждый месяц и тратит значительные суммы, считается ценным для бизнеса.

RFM помогает компаниям определять лучших клиентов, выявлять тех, кто находится в зоне риска оттока, и создавать персонализированные маркетинговые кампании для каждого сегмента. Этот метод особенно эффективен для розничной торговли и eсommerce, где важно оптимизировать стратегии взаимодействия и удержания клиентов.

Методы описательной сегментации

Как работает предиктивная сегментация

В то время как описательная сегментация основывается на вручную заданных правилах и чётких критериях (например, "клиенты, потратившие более $100 в прошлом месяце" или "женщины в возрасте 25–34 лет"), предиктивная сегментация использует совершенно иной подход.

Вместо фиксированных правил она анализирует закономерности в исторических данных о клиентах, чтобы прогнозировать их будущее поведение. Например, вместо простого анализа прошлых покупок, система может выявить скрытые тренды, указывающие на высокую вероятность повторной покупки в ближайшее время.

Сила этого подхода заключается в способности обрабатывать огромные массивы взаимосвязанных данных. Когда маркетологи создают сегменты вручную, они, как правило, учитывают максимум 3–4 ключевых переменных — учитывать больше становится слишком сложно. Однако алгоритмы машинного обучения могут одновременно анализировать сотни переменных: не только очевидные, такие как история покупок и демография, но и незначительные изменения в поведении при просмотре сайта, реакцию на предыдущие кампании, сезонные тренды и даже временные промежутки между посещениями сайта.

Эти алгоритмы не рассматривают отдельные переменные изолированно. Они выявляют сложные взаимосвязи между различными факторами. Например, предиктивная модель может определить, что клиенты, которые посещают ваш сайт по вечерам в будние дни, регулярно открывают ваши письма и совершили как минимум две покупки в разных категориях, с высокой вероятностью откликнутся на вашу следующую акцию. Выявить такие закономерности вручную практически невозможно, и они уникальны для каждого бизнеса.

Прошлое vs будущее: ключевое различие

Главное отличие между описательной и предиктивной сегментацией заключается в их отношении ко времени. Описательная сегментация по своей сути ориентирована на прошлое — она может только рассказать о том, что клиенты уже сделали, или кем они являются на данный момент.

Когда маркетологи формируют условия для сегментации, вроде "клиенты, которые совершили покупку за последние 30 дней" или "посетители, которые оставили товары в корзине", они, по сути, используют прошлые данные, чтобы спрогнозировать потенциальное действие. Они опираются на предположение, что алгоритм действий клиента не изменится. 

Предиктивная сегментация, напротив, напрямую отвечает на вопрос, который действительно важен для бизнеса: "Что этот клиент сделает дальше?"

Вместо предположения, что прошлое поведение повторится, она активно прогнозирует будущие действия. Вместо того чтобы создавать сегмент "клиентов, которые часто покупали в прошлом", предиктивная сегментация выделяет группу "клиентов, которые с высокой вероятностью совершат покупку в течение следующих двух недель" — даже если некоторые из них не соответствуют традиционному профилю активного покупателя.

Этот переход от описательного к предиктивному анализу кардинально меняет подход бизнеса к маркетингу. Вместо реакции на прошлое поведение, компании могут проактивно взаимодействовать с клиентами, опираясь на прогноз их будущих действий.

Предиктивная сегментация vs. описательные методы

Разбираем двигатель предиктивной сегментации на запчасти

Чтобы понять, как работает предиктивная сегментация, давайте заглянем "под капот". Для использования этой технологии не обязательно быть аналитиком данных, но базовые знания помогут принимать более взвешенные решения о том, когда и как её применять в маркетинге.

Готовы? Поехали!

Данные — основа всего

Предиктивная сегментация работает основываясь на информации. Чем больше данных — тем лучше, а их качество и полнота напрямую влияют на точность прогнозов.

Какие данные необходимы?

Предиктивные модели дают наилучшие результаты, когда могут учитывать полную картину клиента. Хотя каждый бизнес уникален, существует несколько ключевых типов данных, которые обеспечивают наиболее точные прогнозы.

Поведенческие данные

  • Взаимодействие с сайтом и приложением: просмотренные страницы, время, проведённое на сайте, использование определённых функциональностей.
  • Вовлеченность в маркетинговые кампании: открытие писем, клики, реакция на различные предложения.
  • Контентные предпочтения: какие статьи читают, какие видео смотрят, какие товары просматривают.
  • Поисковые паттерны: что ищут на вашем сайте.

Транзакционные данные

  • История покупок: что и когда покупают.
  • Средний чек: сколько обычно тратят.
  • Предпочтения по товарам: какие категории или конкретные продукты выбирают чаще.
  • Способы оплаты: какой метод оплаты выбирают чаще.
  • Статус подписки: есть ли у клиента активная подписка или регулярный план.

Атрибуты клиента

  • Основные демографические данные: возраст, местоположение, пол.
  • Контактная информация: предпочтительные каналы связи.
  • Детали аккаунта: как долго клиент взаимодействует с вашим бизнесом.
  • Кастомные поля: любые специфические данные, важные именно для вашего бизнеса.
  • Участие в программе лояльности: если такая программа у вас есть.

Чем более точной и детализированной будет информация, тем более персонализированными и эффективными окажутся маркетинговые кампании, построенные на основе предиктивной сегментации.

Типы данных, используемых в предиктивном моделировании

Выглядит так, что данных нужно очень много, не правда ли? Но есть отличная новость — вам не нужно обладать всей этой информацией, чтобы начать. Предиктивные модели могут работать с теми данными, которые уже доступны. А по мере накопления новых, прогнозы становятся более точными и детализированными.

Источники данных и их обработка

Если вы используете хотя бы одно программное решение для автоматизации маркетинга, вы уже собираете ценные данные о клиентах. Однако, прежде чем эти данные будут переданы в систему предиктивной сегментации, необходимо убедиться, что они правильно собраны и сохранены.

В идеале необходимо иметь единое централизованное хранилище, которое объединяет информацию из всех доступных источников. Customer Data Platforms (CDP) отлично подходят для этой цели.

CDP выступает в роли единого хаба, который:

  • Объединяет данные из разных источников для создания единого профиля клиента.
  • Поддерживает актуальность информации в реальном времени.
  • Обеспечивает консистентность данных между различными системами.
  • Предоставляет данные для предиктивного анализа, когда это необходимо.

Чтобы обогатить данные в CDP, стоит подключить дополнительные источники, такие как:

  • CRM-системы: информация о клиентах и история взаимодействия.
  • Аналитические платформы: поведение на сайте и в приложении.
  • Маркетинговые инструменты: вовлеченность в кампании и реакции.
  • Системы поддержки: взаимодействие с клиентским сервисом.
  • Собственные базы данных: любые дополнительные данные, которые вы собираете.

Имейте в виду, что данные необходимо собирать не один раз — для достижения наилучших результатов нужна система, обеспечивающая постоянный поток информации, включая:

  • Новые покупки.
  • Поведение клиентов.
  • Реакции на кампании.

Как CDP агрегирует данные из разных источников в одном месте

Постоянный поток данных позволяет предиктивным сегментам оставаться актуальными, выделяя самые свежие поведенческие паттерны и предпочтения клиентов. Например, если клиент начинает демонстрировать признаки снижения вовлеченности, система может автоматически переместить его в другой сегмент, который требует особого внимания.

Почему важно следить за чистотой данных

Помните песню Джастина Тимберлейка “What Goes Around... Comes Around”? В предиктивной сегментации всё примерно так же: качество исходных данных напрямую влияет на качество прогнозов, которые строит система.

Наиболее распространённые проблемы с данными:

  • Дублирование клиентских записей.
  • Отсутствие или некорректность информации.
  • Несогласованное форматирование.
  • Устаревшие данные.

Именно поэтому большинство систем предиктивной сегментации включают автоматические этапы очистки данных. Эти этапы стандартизируют и проверяют информацию перед тем, как использовать её для построения прогнозов.

Знаете ли вы?

CDP eSputnik автоматически очищает и подготавливает данные, необходимые для сегментации. Если вы выполнили все технические настройки, например, установили скрипт для веб-трекинга, вам не потребуется дополнительная очистка данных.

Построение модели

После того как данные готовы, система начинает искать закономерности, которые помогут прогнозировать поведение клиентов в будущем. Представьте этот процесс как соединение множества точек в ваших данных для создания целостной картины о том, какие действия клиентов предвещают их последующее поведение.

В зависимости от того, какой прогноз требуется сделать, система использует различные типы моделей.

Для прогнозирования поведения клиентов наиболее распространённый тип модели — классификация. В этом случае цель — распределить клиентов на бинарные группы в зависимости от вероятности их последующих действий (например, "покупатели" vs "непокупатели").

Среди других моделей:

  • Кластеризация — определение естественных групп схожих клиентов.
  • Регрессия — прогнозирование конкретных значений, например, суммы будущих покупок.

Для маркетинга особенно ценны именно классификационные модели, так как они помогают ответить на практические вопросы:

  • "Совершит ли этот клиент покупку в течение следующих 30 дней?"
  • "Есть ли риск, что этот клиент уйдет?"

Система получает опыт и знания из примеров прошлых клиентов, которые совершали или не совершали определённые действия, и использует эти знания для прогнозов.

Как происходит обучение системы

Система анализирует исторические данные, чтобы понять, что происходило в прошлом. Например, если вы хотите предсказать, какие клиенты совершат покупку в следующем месяце, система проанализирует две группы клиентов:

  • Тех, кто совершил покупку в течение 30 дней.
  • Тех, кто не совершил покупку в этот период.

Для каждой группы система рассматривает сотни различных сигналов, включая:

  • Когда клиент в последний раз посещал ваш сайт.
  • Какие страницы он просматривал.
  • Открывал ли он ваши письма.
  • Его историю покупок.
  • Как он взаимодействует с брендом.
  • И множество других факторов.

Со временем система начинает определять, какие комбинации этих факторов наиболее точно предсказывают будущие покупки. Некоторые закономерности могут быть очевидными, например, частые посещения сайта повышают вероятность покупки. Но другие связи могут быть менее заметными, например, клиенты, которые читают статьи в разделе поддержки, могут чаще совершать более крупные покупки.

Тот же процесс обучения применяется к любым действиям клиентов, которые вы хотите предсказать, будь то отток, апгрейды или взаимодействие с конкретными продуктами. Система непрерывно обучается на новых данных, совершенствуя понимание того, как поведение клиентов влияет на их будущие действия.

Визуализация процесса обучения системы

Преобразование паттернов в прогнозы

Здесь на помощь приходит классификация. Она разделяет клиентов на разные группы в зависимости от того, насколько вероятно, что они совершат конкретное действие. Например, система может классифицировать клиентов как:

  • "Очень вероятно, что купят" (вероятность 80% и выше)
  • "Вероятно, что купят" (вероятность от 50% до 80%)
  • "Маловероятно, что купят" (вероятность от 20% до 50%)
  • "Очень маловероятно, что купят" (менее 20% вероятности)

Эти вероятности основываются на том, насколько текущее поведение клиента совпадает с паттернами, которые ранее приводили к покупкам. Например:

  • Клиент, который посещает ваш сайт три раза в неделю, открывает все ваши письма и просматривает страницы с ценами, может иметь 85% вероятность покупки.
  • Кто-то, кто не открывал ваши письма два месяца и посетил сайт только один раз, может иметь 20% вероятность покупки.
  • Клиент, который недавно несколько раз просматривал похожие товары, но не купил, может иметь 60% вероятность покупки.

Система обновляет эти прогнозы непрерывно. Клиент, который был "маловероятным покупателем" на прошлой неделе, может перейти в категорию "может купить" после того, как он взаимодействовал с вашей последней email-кампанией. Эта динамичность означает, что ваши сегменты всегда актуальны и отражают самые последние поведенческие изменения клиентов.

С помощью предиктивных моделей вы можете запускать эффективные и прибыльные кампании, тратя меньше времени на ручное обновление и настройку сегментов. Однако не каждая модель дает одинаковые результаты, и именно поэтому нам нужно иметь способ оценки их эффективности и результатов. Вот тут на помощь приходят метрики оценки моделей.

Оценка моделей

Чтобы лучше понять, как оценивать предиктивные модели, представьте следующую ситуацию: перед вами большой стог сена. Догадываетесь, к чему это? Да, сейчас мы поговорим про иголки. И речь пойдет не об одной иголке, а о множестве иголок в этом стоге, которые вам нужно найти.

Но иголки все разные. Некоторые длиннее, некоторые толще, а некоторые даже изогнуты! Задача не из легких, правда?

Данные, как и иголки — намного разнообразнее, чем мы себе представляем

Матрица ошибок

Учитывая задачу, вы решаете использовать специальное сито, которое фильтрует солому и находит в ней иголки. Это и есть ваша предсказательная модель. Однако, учитывая, что иголки разные, а солома тоже не однородная, иногда иголки остаются в соломе, а иногда солома проходит через сито как иголка.

В предсказательном моделировании у нас есть инструмент, называемый матрицей ошибок, который наглядно описывает эту ситуацию. Это сетка 2X2, которая охватывает возможные сценарии.

Матрица ошибок

Сценарии:

Истинно положительный результат (TP): Модель правильно предсказывает положительный класс. Это как если бы ваше сито правильно определило иголку. 

Ложно положительный результат (FP): Модель предсказала неверный исход. Это когда ваше сито отсеивает соломинку вместо настоящей иголки. 

Ложно отрицательный результат (FN): Модель не предсказала правильный исход. Представьте ситуацию, когда ваше сито оставляет иголку в соломе, вместо того чтобы правильно её отфильтровать. 

Истинно отрицательный результат (TN): Модель правильно предсказывает отрицательный класс. Ваше сито оставляет соломинку там, где она должна быть — в стоге сена.

Метрики, используемые для оценки предсказательных моделей

При работе с моделями (так же как с нашим ситом для иголок) важно иметь какой-то способ измерения, по которому мы можем оценить эффективность нашего решения. Для этого у нас есть метрики. Они разные и используются в различных сценариях. Давайте подробнее рассмотрим самые распространенные и когда их следует применять.

Общая точность

Когда речь идет об оценке модели, общая точность (accuracy) — это самая простая и понятная метрика в нашем арсенале. Она рассчитывается как отношение правильных предсказаний к общему количеству предсказаний.

Формула для расчета общей точности

Это простая и понятная формула, которая хороша для начальной оценки и сбалансированных наборов данных (то есть у вас примерно одинаковое количество иголок и соломинок в вашем стоге).

Однако общей точности не хватает для более сложных сценариев и несбалансированных наборов. Рассмотрим пример: у вас 5 иголок и 95 соломинок. Модель может отметить все как соломинки, и точность составит 95%. Хотя это кажется хорошим результатом, на самом деле мы не нашли ни одной иголки в нашем стоге.

Высокая точность не гарантирует положительных результатов

Из-за этого общая точность не является самой надежной метрикой. Тем не менее, она полезна для сбалансированных наборов данных и ситуаций, когда ошибки не являются критичными.

Преимущества использования общей точности:

  • Простой, понятный и быстрый в вычислении метод
  • Хорошо работает для сбалансированных наборов данных
  • Широко применима для различных типов классификационных моделей

Недостатки использования общей точности:

  • Может вводить в заблуждение на дисбалансированных выборках, поскольку скрывает слабую эффективность для малых классов;
  • Не различает разные типы ошибок (ложноположительные vs. ложноотрицательные);
  • Не подходит для случаев, когда стоимость разных ошибок варьируется.

Когда использовать общую точность:

  • Сбалансированные наборы данных: точность наиболее эффективна, когда положительные и отрицательные случаи встречаются в схожих пропорциях.
  • Ошибки с низкой стоимостью: когда ложные положительные и ложные отрицательные ошибки одинаково важны или имеют низкое влияние (например, классификация спам-емейлов).
  • Начальная оценка модели: точность часто используется как базовая метрика для быстрой оценки модели до перехода к более подробным метрикам, таким как точность предсказаний, полнота или F1-мера.

Точность предсказаний 

Точность предсказаний (precision, прецизионность) — это одна из двух важнейших метрик, используемых для оценки модели (вторая — это полнота). Она измеряет точность положительных предсказаний и рассчитывается как отношение всех правильных положительных предсказаний к общему числу случаев, отмеченных как положительные.

Формула для расчета точности предсказаний

В большинстве случаев точность предсказаний является более точной метрикой, чем общая точность (да, вот такая вот запутанная игра слов), и особенно важна в тех случаях, когда ложноположительные ошибки более вредны, чем ложноотрицательные.

После того, как вы прочитали предыдущий абзац 5 раз и окончательно запутались, предлагаем вернуться к нашему стогу сена. Если наша модель идентифицировала 100 предметов как иголки, а на самом деле 90 из них были настоящими иголками (истинно положительные), а 10 — соломинками (ложноположительные), то можно сказать, что точность составляет 90%.

Высокая точность предсказаний необходима, когда важно минимизировать количество ложноположительных результатов.

Однако, о чем не скажет нам точность, так это о том, сколько иголок осталось в соломенном снопе. Представьте, что всего было 200 иголок, но модель обнаружила только 90 из них. Это означает, что модель пропустила 110 иголок (ложноотрицательные результаты), что является важной информацией, если наша цель — найти как можно больше иголок. Точность сама по себе не покрывает этот аспект.

Преимущества использования точности предсказаний:

  • Ориентируется на минимизацию ложноположительных результатов, что особенно важно, когда такие ошибки имеют высокую стоимость (например, при фильтрации спама или обнаружении мошенничества).
  • Предоставляет полезную информацию, гарантируя надежность предсказанных положительных результатов.

Недостатки использования точности предсказаний:

  • Не учитывает ложные отрицательные результаты, что может быть проблемой, если важно выявить все положительные случаи (например, в медицинской диагностике).
  • Может вводить в заблуждение при работе с сильно несбалансированными данными.

Когда использовать точность предсказаний: 

Прецизионность идеальна в ситуациях, когда ложноположительные ошибки более критичны, чем ложные отрицательные. Некоторые конкретные примеры включают:

  • Выявление мошеннических транзакций в финансовых системах: Ложноположительные результаты (когда легитимные транзакции ошибочно помечаются как мошеннические) могут привести к недовольству клиентов. Высокая прецизионность гарантирует, что будут отмечены только действительно мошеннические случаи.
  • Обнаружение спама в электронной почте: Высокая прецизионность гарантирует, что легитимные письма не будут ошибочно помечены как спам, что сохраняет доверие пользователей.
  • Медицинские тесты для редких заболеваний: В некоторых случаях (например, когда последующие тесты дорогие или инвазивные) ложноположительные результаты (здоровые люди, ошибочно помеченные как больные) могут привести к ненужному стрессу и расходам, что делает точность приоритетной.
  • Извлечение информации и поисковые системы: При ранжировании результатов поиска точность гарантирует, что наиболее релевантные результаты будут отображаться на первых местах. Ложноположительные результаты (нерелевантные) ухудшают пользовательский опыт.

Полнота 

Полнота (также известная как Recall, чувствительность или доля истинных положительных) — это еще одна важная метрика для оценки моделей. Она используется для измерения способности модели захватывать все положительные классы и рассчитывается как отношение правильных положительных предсказаний к общему числу реальных положительных случаев в наборе данных.

Формула для расчета полноты

В отличие от точности предсказаний, которая ориентируется на корректность положительных предсказаний, полнота акцентирует внимание на выявлении как можно большего числа истинных положительных, даже если это означает допустимость некоторых ложноположительных результатов. Это делает полноту особенно важной в случаях, когда потеря истинных положительных (ложные отрицательные) имеет более серьезные последствия, чем предсказание ложноположительных.

Возьмем наш предыдущий пример: мы идентифицировали 100 объектов как иголки, из которых 90 были настоящими иголками (истинно положительные), а 10 — соломинками (ложноположительные). Точность предсказаний этой модели была 90%. Но из 200 иголок мы не заметили 110, поэтому значение полноты составило 45%. Эта модель плохо справляется с выявлением всех положительных случаев.

Однако, если мы идентифицировали 380 объектов как иголки, и 190 из них были настоящими иголками, то наша модель имеет значение полноты на уровне 95%. Но точность предсказаний составляет лишь 50%. Скорее всего вы уже видите компромисс между этими двумя метриками.

Высокий показатель полноты гарантирует, что вы захватите большинство иголок.

Именно поэтому полнота часто используется вместе с точностью, особенно в случаях, где как ложноположительные, так и ложные отрицательные результаты имеют серьезные последствия.

В CDP eSputnik мы используем полноту как базовую метрику для оценки наших моделей.

Когда речь идет о сегментации клиентов, стоимость ошибки в виде неверной идентификации клиента минимальна. Однако, пропуск потенциальных покупателей в ваших маркетинговых кампаниях может привести к снижению доходов, что крайне нежелательно.

Преимущества использования полноты:

  • Приоритет в захвате положительных случаев: Полнота ориентирована на максимально возможное количество истинных положительных результатов, что важно, когда ложные отрицательные ошибки опасны (например, при выявлении заболеваний).
     
  • Полезно для несбалансированных наборов данных, где положительный класс редок.
     

Недостатки использования полноты:

  • Игнорирует ложноположительные результаты, что может привести к множеству ложных результатов.
     
  • Не подходит, когда точность критична, а ложноположительные ошибки являются проблемой.
     

Когда использовать полноту:

Полнота идеальна в сценариях, когда пропуск положительных случаев более критичен, чем уменьшение ложноположительных, включая:

  • Медицинская диагностика: При выявлении рака или других опасных заболеваний ложные отрицательные результаты (невыявление больного пациента) могут иметь серьезные последствия. Полнота гарантирует, что модель выявит как можно больше реальных случаев, даже если некоторые здоровые пациенты будут ошибочно помечены как больные.
     
  • Маркетинговая сегментация: Бизнесам, желающим максимизировать доход от маркетинговых действий, необходима высокая полнота, чтобы захватить как можно больше потенциальных покупателей. В этом случае ложноположительные ошибки (отправка кампании незаинтересованным лидам) не приводят к значительным негативным последствиям.
     
  • Прогнозирование бедствий: Прогнозирование редких, но значительных событий, таких как землетрясения или финансовые кризисы, требует высокой полноты, чтобы критические предупреждения не были упущены.

Полнота (Recall) vs Точность предсказаний (Precision)

Как мы уже видели, повышение точности модели приводит к снижению полноты, и наоборот.

 Компромисс между полнотой и точностью

  • Точность (Precision): Ориентируется на обеспечение правильности положительных предсказаний, при этом допускаются больше ложных отрицательных результатов.
  • Полнота (Recall): Ориентируется на захват как можно большего числа истинных положительных результатов, при этом допускаются больше ложных положительных.

Высокая полнота и высокая точность имеют свои конкретные области применения.

Ни одна из этих метрик сама по себе не дает полного представления о модели. Во многих случаях важно сбалансировать полноту и точность, что можно сделать с помощью F1-метрики.

F1-метрика

F1-метрика — это гармоническое среднее точности и полноты, предоставляющее единую метрику, которая сбалансирует обе. Она особенно полезна в случаях, когда и точность, и полнота важны в равной степени. F1-метрика варьируется от 0 до 1, при этом более высокие значения означают лучшую производительность модели.

 Формула для расчета F1-метрики

Возвращаясь к нашим примерам со стогом сена: для первого случая (90% точности и 45% полноты) F1-метрика составит 0,60. Для второго (50% точности и 95% полноты) F1-метрика будет равна 0,65. Хотя значения F1-счетов схожи, производительность моделей и результаты сильно различаются.

Когда использовать F1-метрику

F1-метрика наиболее ценна в случаях, когда:

  • Точность и полнота важны обе: Она балансирует компромисс между ложными положительными и ложными отрицательными результатами. Пример: системы рекомендаций фильмов, где нужно рекомендовать релевантные фильмы (высокая точность), не пропуская те, которые могут заинтересовать зрителя (высокая полнота).
     
  • Несбалансированные наборы данных: В наборах данных с неравномерным распределением классов точность может вводить в заблуждение, в то время как F1-метрика дает более справедливую оценку производительности.
     

Преимущества использования F1-метрики:

  • Балансирует точность и полноту, предоставляя единую метрику для оценки производительности модели.
  • Полезна, когда необходимо учитывать как ложные положительные, так и ложные отрицательные результаты.
  • Лучше работает с несбалансированными наборами данных, чем точность.

Недостатки использования F1-метрики:

  • Не позволяет учитывать разные важности точности и полноты в зависимости от специфики задачи.
  • Может скрывать информацию, которую дают отдельные метрики точности и полноты.

F1-метрика — это хороший метод для оценки моделей, где и точность предсказаний, и полнота важны и существует компромисс между ними. Она предоставляет сбалансированную оценку, особенно для искаженных наборов данных, но должна интерпретироваться вместе с точностью и полнотой для учета приоритетов конкретной задачи.

Предиктивная сегментация с CDP eSputnik

В eSputnik мы используем передовую модель машинного обучения для сегментации клиентов на основе вероятности покупки — одного из важнейших показателей для электронной коммерции.

Для создания этих прогнозов наша модель анализирует широкий спектр данных, включая историю покупок, стоимость и частоту прошлых покупок, дату последнего действия клиента, поведенческие паттерны, демографические данные и другие факторы.

Этот подход позволяет захватывать и анализировать больше данных, чем может обработать любой маркетолог.

Данные, анализируемые человеком vs. машинным обучением

После этого наша система создает сегмент вероятных покупателей, который вы можете использовать в своих кампаниях.

Чтобы создать предиктивный сегмент, перейдите в раздел Контакты → Сегменты → Добавить сегмент → Динамический и выберите опцию Вероятность покупки.

Вы можете выбрать один из четырех пресетов или установить ручное значение Recall от 20% до 80%.

Интерфейс предиктивных сегментов в CDP eSputnik

Как вы уже знаете, значение Recall регулирует количество вероятных покупателей в созданном сегменте.

Низкие значения (20-50%) создадут более узкий сегмент с лучшим соотношением покупателей и не покупателей (поскольку точность будет выше). Это идеально подходит для высокотаргетированных кампаний или когда ваша цель — достичь максимального ROMI.

Высокие значения создадут более широкий сегмент с большим количеством не покупателей (низкая точность), но охватят большую часть вероятных покупателей. Используйте этот вариант, когда вам нужно максимально увеличить доход и охватить значительную часть клиентской базы.

Когда речь идет о наших пресетах, вот что они означают:

  • Гарантированные покупатели: Пользователи с очень высокой вероятностью покупки. Отлично подходит для премиум-продуктов и эксклюзивных предложений, этот сегмент может стать основным источником дохода.
  • Потенциальные покупатели: Пользователи с средней или высокой вероятностью покупки. Эти клиенты хорошо реагируют на сезонные распродажи, запуск продуктов и персонализированные рекомендации.
  • Маловероятные покупатели: Бывшие клиенты, которые давно не совершали покупок. Кампании по повторному вовлечению, предложения для возвращения и персонализированные сообщения могут помочь вернуть их в ваш бизнес.
  • Неопределенные покупатели: Пользователи с низкой или средней вероятностью покупки. Они могут быть заинтересованы, но еще не уверены. Предложение стимулирующих акций, образовательных материалов или запросов обратной связи может помочь подтолкнуть их к решению.

Использование этого инструмента имеет несколько ключевых преимуществ:

  • Скорость и простота создания: Предиктивные сегменты очень легко настроить, что экономит время, которое вы бы потратили на создание сложных вручную групп.
     
  • Лучшие результаты: Алгоритмы машинного обучения анализируют большие объемы данных. Это позволяет создавать более таргетированные и точные сегменты, которые обычно показывают лучшие результаты по сравнению с вручную созданными.
     
  • Экономия на кампаниях: Предиктивные сегменты отлично подходят для каналов, таких как SMS или Viber, где стоимость каждого сообщения имеет значение. С помощью этой технологии вы можете сделать каждое сообщение более эффективным и достичь экономически выгодных результатов.
     
  • Новые сценарии: В дополнение к желаемым событиям конверсии (например, покупка), предиктивные сегменты могут охватывать другие события, такие как отток клиентов. Эти события сложно настроить с помощью ручной сегментации, при этом они позволяют создавать креативные кампании по удержанию.
     
  • Упрощение A/B тестирования: Предиктивные сегменты, как правило, дают лучшие результаты, что делает их идеальными для A/B тестов различных креативов, предложений и других переменных.
     

Давайте рассмотрим несколько реальных примеров использования этой технологии.

Кейс O.TAJE

O.TAJE, украинский бренд женского модного трикотажа, значительно улучшил результаты своих кампаний в Viber, внедрив предиктивную сегментацию с помощью CDP eSputnik. С июня по август 2024 года они тестировали предиктивные сегменты в сравнении с традиционным подходом ручной сегментацией.

В одной из кампаний предиктивный сегмент показал следующие результаты:

  • 57,83% открываемость (по сравнению с 45,24% для ручной сегментации)
  • 5,73% конверсия (по сравнению с 5,14% для ручной сегментации)
  • 1010,89% ROMI (по сравнению с 389,19% для ручной сегментации)

В целом, кампании с использованием предиктивных сегментов показали улучшения по следующим метрикам:

  • На 26% выше CTR
  • На 300% выше конверсия
  • На 310% увеличился общий ROMI

Сравнение результатов предиктивных и обычных сегментов.

Учитывая эти результаты, O.TAJE планирует использовать предиктивные сегменты и для других маркетинговых каналов, особенно для SMS и Viber.

Кейс BAYADERA.UA

BAYADERA.UA, крупнейший розничный продавец алкогольных напитков в Украине, тестировал предиктивную сегментацию для улучшения результатов SMS-маркетинга. С июля по август 2024 года они сравнивали предиктивные сегменты с традиционными методами ручной сегментации. Для предиктивного сегмента они использовали настройку 80% Recall.

Они провели две тестовые кампании: акцию "Больше корзина — больше скидка" и распродажу в честь Дня Независимости. Результаты показали значительные улучшения при использовании предиктивной сегментации:

  • 1611% рост дохода для первой кампании
  • 3564% рост дохода для второй кампании

 Группа A с предиктивным сегментом


Заключение

Теперь вы знаете все, что нужно для эффективного использования предиктивной сегментации: как она отличается от дескриптивных методов, какие данные используются, как строятся модели и как их оценивают.

Вооружившись этими знаниями, вы можете запускать собственные эффективные кампании с помощью искусственного интеллекта.

Если вы хотите узнать больше о том, как предиктивная сегментация может работать для вашего бизнеса и как CDP eSputnik может помочь вам в этом, заполните форму ниже. Наши эксперты свяжутся с вами в ближайшее время.

Получить персонализированную консультацию
На персональной консультации наш эксперт познакомит вас с возможностями платформы eSputnik и расскажет, как вы можете использовать ее для роста вашего бизнеса
Меня интересуют:

Вам понравился материал?

5.0 из 5 на основе 1 оценок

Иван Дюлай

Копирайтер

Комментарии 0

Отправить