Предиктивна сегментація 102: Технологія та метрики

Маркетинг розвивається вже тисячоліттями, і його шлях від початкових форм до сучасного рівня був вражаючим. Разом із ним вдосконалювалися й наші інструменти маркетологів — від глиняних табличок і паперових зошитів до електронних таблиць і передових систем штучного інтелекту. Ми завжди прагнемо досягати кращих результатів і шукаємо нові способи для цього. Водночас ми хочемо мінімізувати відсоток рутинної роботи, що цілком логічно — зважаючи на великий обсяг завдань та викликів сучасного ринку, маркетологи не можуть дозволити собі робити все вручну.

Саме тому сфера автоматизації маркетингу стрімко розвивається. Ми створюємо контент і тексти за допомогою ШІ, генеруємо персоналізовані рекомендації товарів, автоматизуємо рутинні завдання та сценарії. Усе це дозволяє досягати кращих результатів витрачаючи менше часу.

Сегментація клієнтів була тією частиною рівняння, яку досить складно автоматизувати. Принаймні, до недавнього часу. Однак із появою предиктивної сегментації (про яку ми вже писали раніше) ми отримали можливість створювати групи клієнтів у автоматичному режимі, водночас отримуючи ще кращі результати.

У цій статті ми розглянемо основні технології, що лежать в основі цього процесу, щоб ви могли використовувати їх для досягнення своїх бізнес-цілей. І спробуємо пояснити це максимально доступно, щоб вам не довелося ламати голову над складною статистикою. Адже у вас є важливіші речі, на які потрібно зосередитися, правда?

Основи предиктивної сегментації vs. дескриптивні методи

Сегментація є ключовою технікою у маркетингу, яка дозволяє розподіляти клієнтів на окремі групи за спільними характеристиками. Традиційно цей процес виконувався вручну на основі бізнес-цілей. Наприклад, певний товар може рекламуватися виключно для жінок, а акція — відображатися лише для користувачів мобільних пристроїв.

Такі підходи називаються дескриптивними (описовими), оскільки вони фокусуються на групуванні вже наявних даних про клієнтів (тобто, фактично «описують» їх).

Раніше ми вже розглядали найпоширеніші методи сегментації, але ось їх короткий огляд:

Демографічна сегментація

Цей базовий метод розподіляє клієнтів за спільними характеристиками, такими як вік, стать, рівень доходу та освіти. Наприклад, люксові бренди можуть орієнтуватися на високооплачуваних спеціалістів віком 40+, тоді як бренди швидкої моди фокусуються на молодших клієнтах із середнім рівнем доходу.

За допомогою сучасних інструментів маркетологи можуть створювати і складніші комбінації умов, наприклад: «заміжні жінки 25-34 років із вищою освітою», щоб максимально точно націлювати маркетингові зусилля та адаптувати продукти під свою аудиторію.

Географічна сегментація

Локальне таргетування враховує не лише фізичне розташування клієнтів, а й контекст їхнього життя: міська чи сільська місцевість, клімат, густота населення, культурні особливості регіону.

Сучасні підходи, такі як геофенсинг, дозволяють компаніям взаємодіяти з клієнтами в реальному часі, коли ті знаходяться в певних місцях.

Наприклад, мережа супермаркетів може коригувати асортимент залежно від погоди у регіоні, а ресторан — змінювати меню відповідно до місцевих смакових уподобань. Коли клієнт знаходиться поряд з офлайн точкою, він може отримувати сповіщення про те, що можна туди завітати. Цей метод особливо ефективний для компаній, що виходять на нові ринки або оптимізують свої логістичні процеси.

Психографічна сегментація

Цей глибший аналіз фокусується на психологічних аспектах поведінки споживачів: їхньому стилі життя, цінностях, інтересах та переконаннях. Він дає відповіді на запитання, чому клієнти ухвалюють певні рішення, групуючи їх у категорії на кшталт «прихильники здорового способу життя», «техноентузіасти» або «екосвідомі споживачі».

Такі дані допомагають брендам створювати маркетингові повідомлення, що резонують із цінностями їхньої аудиторії, посилюючи емоційний зв’язок із брендом.

Поведінкова сегментація

Аналізуючи, як клієнти взаємодіють із продуктами чи послугами, компанії можуть сегментувати їх на основі їхніх дій, а не характеристик. Наприклад, включати частоту покупок, лояльність до бренду, інтенсивність використання продукту та реакцію на маркетингові кампанії.

IT-компанія може розділити користувачів на активних та періодичних, а рітейлер — на «мисливців за знижками» та клієнтів преміум сегмента. Така сегментація дозволяє ефективніше розробляти стратегії утримання клієнтів і персоналізовані пропозиції.

Сегментація за клієнтською цінністю

Цей метод орієнтується на економічну взаємодію клієнта з бізнесом і враховує середній чек, частоту покупок і життєву цінність клієнта (CLV).

Компанії використовують ціннісну сегментацію, щоб виділяти найбільш прибуткові та пріоритетні категорії клієнтів і розуміти, які фактори роблять їх цінними для бізнесу.

Такі дані допомагають оптимізувати бюджет на залучення нових клієнтів та підвищити рівень утримання існуючих, інвестуючи більше ресурсів у роботу з найперспективнішими сегментами.

RFM-сегментація

Цей метод аналізу допомагає бізнесу краще розуміти клієнтів та сегментувати їх за трьома ключовими показниками:

Recency (Давність покупки) — коли клієнт востаннє здійснив покупку.
Frequency (Частота покупок) — як часто він купує.
Monetary value (Середній чек) — яку суму витрачає.

Наприклад, клієнт, який здійснив покупку минулого тижня, купує щомісяця і витрачає значні суми, є цінним для бізнесу. Завдяки RFM-сегментації компанії можуть виділяти найприбутковіших клієнтів та працювати над їхнім утриманням, виявляти покупців, які перестали робити замовлення (ризик відтоку) та формувати персоналізовані маркетингові кампанії для кожного сегмента.

Цей метод особливо ефективний для ритейлу та e-commerce, які прагнуть покращити залучення клієнтів і стратегії їх утримання.

Як працює предиктивна сегментація

Якщо дескриптивна сегментація базується на чітко визначених правилах і критеріях (наприклад, «клієнти, які витратили понад $100 минулого місяця» або «жінки віком 25–35 років»), то предиктивна сегментація використовує зовсім інший підхід.

Замість фіксованих правил вона аналізує закономірності в історичних даних про клієнтів, щоб передбачити їхню майбутню поведінку. Наприклад, замість того щоб просто враховувати минулі покупки, система може визначати непомітні тренди, які вказують на ймовірність повторного замовлення найближчим часом.

Сила цього підходу полягає у здатності обробляти величезні обсяги взаємопов’язаних даних. Коли маркетолог створює сегменти, він зазвичай зосереджується максимум на 3–4 ключових змінних — враховувати більше просто занадто складно. Однак алгоритми машинного навчання можуть одночасно аналізувати сотні параметрів. І це не лише очевидні показники, такі як історія покупок і демографія, а й малопомітні зміни у поведінці клієнта на сайті, реакція на попередні кампанії, сезонні тренди та навіть проміжки часу між візитами на сайт.

Алгоритми не розглядають окремі змінні ізольовано. Вони виявляють складні взаємозв’язки між різними факторами. Наприклад, предиктивна модель може з’ясувати, що клієнти, які переглядають сайт у будні ввечері, регулярно відкривають ваші email-розсилки та зробили щонайменше дві покупки в різних категоріях, з високою ймовірністю відреагують на наступну акцію. Такі закономірності майже неможливо помітити, аналізуючи дані вручну, і вони є унікальними для кожного бізнесу.

Минуле vs. майбутнє: ключова відмінність

Головна різниця між дескриптивною та предиктивною сегментацією полягає у їхньому ставленні до часу. Дескриптивна сегментація завжди орієнтована на минуле — вона лише аналізує, що клієнти вже зробили або ким вони є на цю мить.

Коли маркетологи створюють сегменти за правилами на кшталт «клієнти, які здійснили покупку за останні 30 днів» або «відвідувачі, які покинули кошик», вони фактично використовують історичні дані, щоб дати оцінку цій поведінці, очікуючи, що вона буде повторюватись.

Предиктивна сегментація, навпаки, відповідає на питання, яке дійсно має значення для бізнесу: «Що цей клієнт зробить далі?»

Замість того щоб припускати, що минулі дії повторяться, вона прогнозує майбутні. Наприклад, замість сегмента «клієнти, які часто купували в минулому», вона виділяє групу «клієнтів, які з високою ймовірністю здійснять покупку протягом наступних двох тижнів» — навіть якщо деякі з них не відповідають звичному профілю частіго покупця.

Перехід від дескриптивного до предиктивного аналізу кардинально змінює підхід бізнесу до маркетингу. Замість реакції на минулу поведінку компанії можуть проактивно взаємодіяти з клієнтами, виходячи з їхніх імовірних майбутніх дій.

Розбираємо предиктивну сегментацію по гвинтиках

Щоб зрозуміти, як працює предиктивна сегментація, варто зануритись в її основні принципи. Вам не потрібно бути фахівцем з аналізу даних, щоб використовувати цю технологію, але базове розуміння допоможе приймати кращі рішення про те, коли та як її застосовувати в маркетингу.

Готові? Починаємо!

Дані як основа предиктивної сегментації

Предиктивна сегментація ґрунтується на даних. Чим більше у вас інформації, тим точнішими будуть прогнози. Якість і повнота даних безпосередньо впливають на ефективність моделей.

Які дані потрібні

Предиктивні моделі дають найкращі результати, коли враховують повний профіль клієнта. Хоча кожен бізнес унікальний, є кілька основних типів даних, які забезпечують точні прогнози:

Поведінкові дані

Взаємодія із сайтом та застосунком: переглянуті сторінки, час на сайті, використані функціональності.
Залученість у кампанії: відкриття email, кліки, реакції на різні пропозиції.
Контентні вподобання: які статті читають, які відео дивляться, які товари переглядають.
Пошукові запити: що шукають на вашому сайті.

Транзакційні дані

Історія покупок: які товари купують і коли.
Середній чек: скільки зазвичай витрачають.
Товарні вподобання: категорії та конкретні товари, що користуються попитом.
Способи оплати: яким методом найчастіше розраховуються.
Статус підписки: чи підключений клієнт до системи регулярних платежів.

Дані про клієнта

Базові демографічні дані: вік, місцезнаходження, стать.
Контактна інформація: канал комунікації, який віддає перевагу клієнт.
Дані облікового запису: як довго клієнт взаємодіє з компанією.
Кастомні поля: будь-які специфічні дані, важливі для вашого бізнесу.
Статус у програмі лояльності: чи бере клієнт участь у бонусній програмі (якщо вона у вас є).

Завдяки цим даним предиктивна сегментація допомагає бізнесу краще розуміти клієнтів і ефективніше комунікувати з ними.

Так, виглядає, що збирати ці дані ви будете роками. Але, хочете спойлер? Вам не потрібно мати всю цю інформацію, щоб розпочати — алгоритми прогнозування працюють з тими даними, які вже є у вашому розпорядженні. А з часом, коли ви збиратимете більше, точність прогнозів буде покращуватись.

Джерела та потік даних

Якщо ви використовуєте хоча б одне програмне рішення для автоматизації маркетингу, то вже збираєте цінну інформацію про клієнтів. Проте, перш ніж ці дані почнуть працювати на вас у системі предиктивної сегментації, важливо переконатися, що вони правильно зібрані, структуровані та збережені.

Зазвичай краще мати єдине централізоване сховище, яке об'єднує всі наявні джерела даних. Ідеальним рішенням для цього є платформа управління клієнтськими даними (CDP).

CDP виконує роль хабу, який:

об'єднує дані з різних джерел в єдиний клієнтський профіль;
оновлює інформацію в реальному часі;
забезпечує узгодженість даних між різними системами;
робить дані доступними для використання в предиктивних моделях.

Щоб збагатити дані у вашій CDP, варто інтегрувати додаткові джерела, такі як:

CRM-системи: інформація про клієнтів та історія взаємодій;
Аналітичні платформи: поведінка користувачів на сайті та в застосунку;
Маркетингові інструменти: реакції на кампанії та залученість;
Системи підтримки: взаємодія клієнтів із сервісними центрами;
Власні бази даних: інші унікальні дані, які ви збираєте.

Пам’ятайте, що дані потрібно збирати не одноразово — ефективна система має підтримувати безперервний потік інформації, включаючи:

нові покупки;
поведінку клієнтів;
реакції на маркетингові кампанії.

Безперервний потік даних дозволяє предиктивним сегментам залишатися актуальними та відображати найсвіжіші поведінкові патерни й уподобання клієнтів. Наприклад, якщо клієнт починає демонструвати ознаки зниження залученості, система автоматично перемістить його до іншого сегмента, який потребує додаткової уваги.

Чому якість даних важлива

Пам’ятаєте пісню Козака Сіромахи "Що посієш те й пожнеш"? У випадку з предиктивною сегментацією принцип той самий: якість вхідних даних безпосередньо впливає на точність прогнозів.

Найпоширеніші проблеми з даними:

дублікати клієнтських записів;
відсутня або некоректна інформація;
непослідовне форматування;
застарілі дані.

Саме тому більшість предиктивних систем включають автоматичні етапи обробки даних. Вони стандартизують та перевіряють інформацію перед тим, як використовувати її для прогнозування.

Чи знали ви?

CDP eSputnik автоматично валідує, оптимізує та готує дані для сегментації. Якщо ви виконали всі технічні налаштування, зокрема встановили скрипт веб-трекінгу, додаткове очищення даних не потрібне.

Побудова моделі

Коли дані готові, система починає шукати закономірності, які допоможуть прогнозувати поведінку клієнтів. Це схоже на з’єднання безлічі точок у ваших даних для отримання цілісного уявлення про те, які дії можуть свідчити про майбутню поведінку клієнтів.

Залежно від того, що саме потрібно передбачити, система використовує різні типи моделей. Найпоширеніший метод для аналізу поведінки клієнтів — класифікація, де мета полягає в тому, щоб розподілити клієнтів на дві групи відповідно до їхніх ймовірних дій (наприклад, покупці vs. непокупці). Інші моделі можуть виконувати кластеризацію (групування схожих клієнтів) або прогнозувати конкретні значення, як-от майбутню суму покупки (регресія).

Для маркетингу класифікаційні моделі особливо корисні, оскільки вони допомагають знайти відповіді на практичні запитання, наприклад:

“Чи зробить цей клієнт покупку протягом наступних 30 днів?”
“Чи є ймовірність, що цей клієнт перестане користуватися нашими послугами?”

Моделі шукають послідовності у минулих кейсах клієнтів, які вже здійснили або не здійснили певні дії.

Як система навчається

Система аналізує історичні дані, щоб зрозуміти, що відбувалося раніше. Наприклад, якщо потрібно передбачити, які клієнти здійснять покупку протягом місяця, модель досліджує дві групи клієнтів з минулого:

тих, хто зробив покупку протягом 30 днів;
тих, хто цього не зробив.

Для кожної групи вона аналізує сотні різних факторів, зокрема:

коли клієнт востаннє відвідував ваш сайт;
які сторінки він переглядав;
чи відкривав він ваші електронні листи;
як часто він купує та які товари обирає;
як взаємодіє з вашим брендом.

З часом система починає розуміти, які комбінації цих факторів найкраще прогнозують майбутні покупки. Деякі закономірності можуть бути очевидними (наприклад, користувачі, які часто заходять на сайт, мають вищу ймовірність покупки). Інші ж можуть бути складнішими та практично непомітними для аналізу маркетологом — наприклад, користувачі, які читають статті на сторінці підтримки, можуть частіше здійснювати дорогі покупки.

Цей процес застосовується до будь-якої поведінки клієнтів, яку потрібно спрогнозувати: від відтоку до зацікавленості конкретними продуктами. Модель постійно навчається на нових даних, поступово покращуючи точність своїх прогнозів.

Перетворення шаблонів у прогнози

Тут на сцену виходить класифікація — метод, який розподіляє клієнтів у різні групи залежно від імовірності здійснення певної дії. Наприклад, система може класифікувати клієнтів так:

"Висока ймовірність купівлі" (80%+ ймовірності);
"Є ймовірність купівлі" (50-80% ймовірності);
"Малоймовірно, що здійснить купівлю" (20-50% ймовірності);
"Дуже малоймовірно, що здійснить купівлю" (менше 20% ймовірності).

Ці показники формуються на основі схожості поточної поведінки клієнта зі сценаріями, які раніше призводили до купівель. Наприклад:

Клієнт, який тричі за тиждень заходив на сайт, відкрив усі ваші листи та переглядав сторінку з цінами, може мати 85% ймовірності покупки.
Користувач, який не відкривав листи протягом двох місяців та відвідав сайт лише раз, ймовірно, має 20% шансів здійснити покупку.
Клієнт, який нещодавно неодноразово переглядав схожі товари, але не купував, може мати 60% ймовірності покупки.

Система безперервно оновлює ці прогнози. Наприклад, клієнт, якого минулого тижня вважали "малоймовірним покупцем", може потрапити в категорію "Є ймовірність купівлі" після активної взаємодії з вашою останньою email-кампанією.

Завдяки предиктивним моделям, маркетингові команди можуть запускати ефективні та прибуткові кампанії без постійного мануального оновлення сегментів. Однак не всі моделі однаково точні, тому важливо мати методи оцінки їхньої ефективності. Тут у гру вступають метрики.

Оцінка моделі

Щоб краще зрозуміти, як оцінювати предиктивні моделі, уявіть собі таку ситуацію: перед вами величезний стіг сіна. Здогадуєтеся, до чого це ми? Так, мова йде про голки. Але не про одну, а про цілу купу голок, які вам потрібно знайти.

Однак ці голки різні. Деякі довші, інші товщі, а деякі навіть зігнуті! Завдання не з простих, правда?

Матриця невідповідностей (Confusion Matrix)

Щоб досягти своєї мети, ви створюєте спеціальне сито, яке просіює сіно та знаходить у ньому голки. Це, так би мовити, ваша предиктивна модель. Проте, оскільки голки бувають різних форм і розмірів, а сіно не є однорідним, сито іноді залишатиме голки в сіні, а іноді — пропускатиме сіно, сприймаючи його за голки.

У предиктивному моделюванні для опису подібних ситуацій використовується матриця невідповідностей (Confusion Matrix). Це 2×2 таблиця, яка охоплює всі можливі сценарії класифікації.

Ось що це значить:

Істинно позитивний (True Positive): модель правильно передбачає позитивний клас (категорію або мітку, яку модель прогнозує; наприклад: у моделі, що визначає наявність спаму, класами можуть бути "спам" та "не спам"). Це як коли ваше сито правильно фільтрує і знаходить голку.
Хибнопозитивний (False Positive): модель передбачає позитивний результат там, де його немає. Це коли ваше сито знаходить соломинку, помилково приймаючи її за голку.
Хибно негативний (False Negative): модель не виявляє позитивний клас, хоча він є. Це ситуація, коли сито не знаходить голку в сіні, хоча мало б її відфільтрувати.
Істинно негативний (True Negative): модель правильно визначає негативний клас. Ваше сито залишає соломинку там, де їй і місце – у снозі сіна.

Метрики для оцінки предиктивних моделей

У машинному навчанні важливо мати інструменти для вимірювання ефективності моделей. Для цього використовуються різні метрики, які підходять для різних сценаріїв. Розгляньмо найпоширеніші з них і коли їх варто застосовувати.

Точність

Коли справа доходить до оцінки моделі, точність є найпростішою та найбільш зрозумілою метрикою в нашому інструментарії. Вона розраховується як відношення правильно спрогнозованих значень до загальної кількості прогнозувань.

Це проста та легка для розуміння формула, яка добре підходить для початкової оцінки та збалансованих наборів даних (тобто коли у вашому стозі сіна приблизно однакова кількість голок і соломинок).

Однак точність не зовсім підходить для складніших сценаріїв та незбалансованих наборів даних. Розглянемо приклад: у вас є 5 голок і 95 соломинок. Модель може позначити все як соломинки, і точність становитиме 95%. Хоча це здається хорошим результатом, насправді ми не отримали жодної голки зі стігу.

Через це точність не є найнадійнішою метрикою. Проте вона корисна для збалансованих наборів даних і ситуацій, коли похибки не є критичними.

Переваги використання точності

Проста, легка для розуміння та швидка у розрахунку;
Добре працює для збалансованих наборів даних;
Широко застосовується для різних типів моделей класифікації.

Недоліки використання точності

Може вводити в оману на дисбалансованих вибірках, оскільки приховує слабку ефективність для малих класів;
Не розрізняє різні типи помилок (хибнопозитивні vs. хибнонегативні);
Не підходить для випадків, коли вартість різних помилок варіюється.

Коли використовувати точність

Збалансовані набори даних: точність є ефективною, коли позитивні та негативні випадки представлені приблизно в рівних пропорціях.
Помилки з низькою вартістю: коли хибнопозитивні та хибнонегативні передбачення мають однакову важливість або незначний вплив (наприклад, класифікація спам-листів).
Початкова оцінка моделі: точність часто використовується як базова метрика для швидкої оцінки моделі перед переходом до детальних метрик, таких як прецизійність, або точність позитивних передбачень (precision), повнота (recall) або F1 score.

Прецизійність

Прецизійність (precision, точність позитивних передбачень) — одна з двох найважливіших метрик у процесі оцінки моделі (друга — повнота (recall)). Вона вимірює точність позитивних передбачень і обчислюється як відношення всіх правильно передбачених позитивних випадків до загальної кількості випадків, які модель класифікувала як позитивні.

Точність оцінює всі передбачення, а прецизійність фокусується лише на правильності позитивних передбачень.

У більшості випадків прецизійність є більш надійною метрикою, ніж просто точність (accuracy), особливо в ситуаціях, коли хибнопозитивні результати є більш критичними, ніж хибнонегативні.

Повернемося до нашого прикладу зі стігом сіна. Якщо наша модель визначила 100 предметів як голки, і насправді 90 з них були справжніми голками (істинно позитивні), а 10 були соломинками (хибнопозитивні), ми можемо сказати, що її прецизійність становить 90%.

Однак прецизійність не показує, скільки голок залишилося в стозі сіна. Уявімо, що загалом у там сховано є 200 голок, але модель визначила лише 90 з них. Це означає, що модель пропустила 110 голок (хибнонегативні результати), що є критично важливим, якщо наша мета — знайти якомога більше голок. Прецизійність сама по собі не враховує цей аспект.

Переваги використання прецизійності

Орієнтується на мінімізацію хибнопозитивних результатів, що важливо, коли вони є дорогими або небажаними (наприклад, фільтри спаму, виявлення шахрайства).
Надає корисну інформацію, гарантуючи, що передбачені позитивні випадки є надійними.

Недоліки використання прецизійності

Не враховує хибнонегативні результати, що може бути проблематичним, коли важливо знаходити всі позитивні випадки (наприклад, у медичній діагностиці).
Може вводити в оману при сильному дисбалансі класів у даних.

Коли використовувати прецизійність

Прецизійність ідеально підходить для випадків, коли хибнопозитивні результати є більш проблематичними, ніж хибнонегативні. Деякі конкретні приклади:

Виявлення шахрайських транзакцій у фінансових системах: хибнопозитивні результати (позначення легітимних транзакцій як шахрайських) можуть спричинити незадоволення клієнтів, тому висока прецизійність гарантує, що позначаються тільки справжні випадки шахрайства.
Фільтрація спам-листів: висока прецизійність забезпечує, що легітимні електронні листи не позначаються як спам, зберігаючи довіру користувачів.
Медичне тестування на рідкісні захворювання: у деяких випадках (наприклад, якщо подальше тестування є дуже інвазивним або дорогим) хибнопозитивні результати (здорові люди помилково позначені як хворі) можуть призвести до непотрібного стресу та витрат, тому прецизійність стає пріоритетом.
Інформаційний пошук і пошукові системи: під час ранжування результатів пошуку прецизійність гарантує, що найрелевантніші результати з’являються на початку. Хибнопозитивні результати (нерелевантні) погіршують досвід користувача.

Повнота

Повнота (Recall) (також відома як чутливість або рівень істинно позитивних результатів) — це ще одна важлива метрика для оцінки моделей. Вона використовується для вимірювання здатності моделі знаходити всі позитивні випадки та розраховується як відношення правильно передбачених позитивних випадків до всіх фактичних позитивних прикладів у наборі даних.

На відміну від прецизійності, яка зосереджена на коректності позитивних передбачень, повнота акцентує увагу на виявленні якомога більшої кількості істинно позитивних випадків, навіть якщо це означає толерування деяких хибнопозитивних результатів.

Це робить повноту особливо важливою у випадках, коли пропуск істинно позитивних випадків (хибнонегативних) є більш критичним, ніж передбачення хибнопозитивних.

Повернемося до нашого попереднього прикладу зі стігом: ми визначили 100 предметів як голки, серед яких 90 справді були голками (істинно позитивні, TP), а 10 виявилися соломинками (хибнопозитивні, FP).
Прецизійність моделі становила 90%.

Однак, якщо в копиці всього 200 голок, то ми пропустили 110 із них (хибнонегативні, FN), що означає, що значення повноти дорівнює 45%. Ця модель погано справляється із виявленням усіх позитивних випадків.

А тепер уявімо інший сценарій:

Модель визначила 380 предметів як голки
190 з них справді були голками (істинно позитивний результат)
190 виявилися соломинками (хибнопозитивний результат)

У такому разі повнота моделі становить 95%, що означає, що вона охоплює майже всі голки. Однак прецизійність падає до 50%, адже половина передбачень були помилковими.

Таким чином, ми бачимо, що між цими двома метриками існує компроміс: збільшення повноти часто призводить до зниження прецизійності, і навпаки.

Це пояснює, чому повноту часто поєднують із прецизійністю, особливо в застосуваннях, де як хибнопозитивні, так і хибнонегативні результати мають серйозні наслідки.

В eSputnik ми використовуємо повноту як базову метрику для оцінки наших моделей.

Під час сегментації клієнтів помилка у визначенні когось як клієнта має незначні наслідки. Водночас пропуск потенційних покупців у маркетингових кампаніях може призвести до зниження доходу, що є вкрай небажаним.

Переваги використання повноти

Пріоритетність у виявленні позитивних випадків: орієнтується на максимальне покриття істинно позитивних випадків, що є ключовим у випадках, де хибнонегативні є критичними (наприклад, виявлення хвороб).
Корисна для дисбалансованих наборів даних, у яких позитивний клас є рідкісним.

Недоліки використання повноти

Ігнорує хибнопозитивні результати, що може спричиняти велику кількість хибних тривог.
Не підходить у випадках, коли прецизійність є пріоритетом і хибнопозитивні результати є проблематичними.

Коли варто використовувати повноту

Повнота є оптимальним вибором у сценаріях, де пропуск позитивних випадків є більш критичним, ніж зменшення хибнопозитивних, включаючи:

Медична діагностика: у виявленні раку або інших небезпечних захворювань хибнонегативний результат (неправильне визначення хворого як здорового) може мати серйозні наслідки. Повнота гарантує, що модель знаходить якомога більше реальних випадків захворювання, навіть якщо іноді помилково відносить здорових людей до хворих.
Маркетингова сегментація: бізнеси, які прагнуть максимізувати дохід, потребують високого значення повноти, щоб охопити якнайбільше потенційних покупців. У такому випадку хибнопозитивний (надсилання кампаній незацікавленим користувачам) не мають значного негативного впливу.
Прогнозування катастроф: виявлення рідкісних, але критичних подій, таких як землетруси або фінансові кризи, вимагає високої повноти, щоб не пропустити жодного важливого попередження.

Повнота vs. Прецизійність

Як ми бачимо, підвищення прецизійності моделі призводить до зниження повноти, і навпаки.

Прецизійність: зосереджується на тому, щоб позитивні передбачення були правильними, допускаючи більше хибнонегативних результатів.
Повнота: орієнтується на охоплення якомога більшої кількості істинно позитивних випадків, допускаючи більше хибнопозитивних результатів.

Жодна з цих метрик окремо не дає повної картини. У багатьох випадках балансування повноти та прецизійності є критичним. Це можна досягти за допомогою F1-міри.

F1-міра

F1-міра — це середнє значення між прецизійністю та повнотою, яке допомагає оцінити баланс між ними. Вона використовується, коли важливо враховувати і хибнопозитивні, і хибнонегативні передбачення.
F1-міра варіюється від 0 до 1, де вищі значення означають кращу продуктивність моделі.

Повертаючись до наших прикладів із стогом сіна:

Для першого прикладу (90% прецизійності та 45% повноти) F1-міра становить 0.60.
Для другого прикладу (50% прецизійності та 95% повноти) F1-міра буде 0.65.

Хоча значення F1-міри співставні, продуктивність і результати двох моделей кардинально різні.

Переваги використання F1-міри

Баланс між прецизійністю та повнотою, що дозволяє оцінити продуктивність моделі за єдиним показником.
Корисна, коли потрібно враховувати як хибнопозитивні, так і хибнонегативні результати.
Краще працює з дисбалансованими наборами даних, ніж загальна точність.

Недоліки використання F1-міри

Не дозволяє задавати різні ваги для прецизійності та повноти залежно від контексту проблеми.
Може приховувати окремі особливості прецизійності та повноти, що важливо для розуміння специфіки роботи моделі.

Коли використовувати F1-міру

F1-міра є найбільш цінною у випадках, коли:

Прецизійність і повнота однаково важливі: вона балансує компроміс між хибнопозитивними та хибнонегативними результатами.
Приклад: системи рекомендації фільмів, де необхідно рекомендувати релевантні фільми (висока прецизійність) і водночас не пропускати ті, що можуть зацікавити глядача (висока повнота).
Дисбалансовані набори даних: у наборах даних з нерівномірним розподілом класів точність може бути оманливою, тоді як F1-міра дає більш об’єктивну оцінку продуктивності моделі.

F1-міра є хорошою метрикою для оцінки моделей, у яких прецизійність і повнота мають однакову важливість, і де існує компроміс між ними. Вона забезпечує збалансовану оцінку, особливо для нерівномірно розподілених наборів даних, але повинна інтерпретуватися разом із прецизійністю та повнотою, щоб врахувати пріоритети конкретного сценарію.

Предиктивна сегментація з CDP eSputnik

В eSputnik ми використовуємо просунуту модель машинного навчання для сегментації клієнтів на основі ймовірності покупки – найважливішого показника для ecommerce.

Щоб створити ці передбачення, наша модель аналізує широкий спектр даних, включаючи історію покупок, вартість і частоту минулих замовлень, дату останньої активності клієнта, поведінкові патерни, демографічні дані та інші фактори.

Цей підхід дозволяє обробляти та аналізувати більше даних, ніж може опрацювати навіть найдосвідченіший маркетолог.

Після цього система створює сегмент потенційних покупців, який можна використовувати у маркетингових кампаніях.

Щоб створити предиктивний сегмент, перейдіть до розділу Контакти → Сегменти → Додати сегмент → Динамічний і виберіть Ймовірність покупки.

Ви можете обрати один із чотирьох готових шаблонів або вказати значення повноти вручну – від 20% до 80%.

Як ви вже знаєте, значення повноти визначає кількість потенційних покупців у сегменті.

Нижчі значення (20-50%) створюють вужчий сегмент із вищою прецизійністю, що означає краще співвідношення покупців до непокупців. Це чудово підходить для високоточних кампаній або коли головна мета – отримати максимальний ROMI.
Вищі значення (60-80%) формують ширший сегмент, який охоплює більше потенційних покупців, але має меншу прецизійність (тобто містить більше непокупців). Використовуйте цей підхід, якщо потрібно максимізувати охоплення і збільшити загальний дохід.

Наші готові пресети пропонують наступні вибірки:

Гарантовані покупці: Користувачі з дуже високою ймовірністю покупки. Ідеально підходить для преміальних товарів та ексклюзивних пропозицій.
Потенційні покупці: Користувачі із середньою або високою ймовірністю покупки. Добре реагують на сезонні розпродажі, запуск нових продуктів та персоналізовані рекомендації.
Малоймовірні покупці: Колишні клієнти, які давно не робили замовлень. Їх можна повернути за допомогою кампаній повторного залучення, спецпропозицій та персоналізованих повідомлень.
Невизначені покупці: Користувачі з низькою або середньою ймовірністю покупки. Вони можуть бути зацікавлені, але ще не ухвалили рішення. Їм варто пропонувати бонусні акції, освітній контент або запити на зворотний зв’язок.

Основні переваги використання предиктивних сегментів

Швидкість і простота створення: Предиктивні сегменти налаштовуються за кілька кліків, економлячи час на ручній сегментації.
Більша ефективність: Алгоритми машинного навчання аналізують значно ширші масиви даних, що дозволяє створювати більш точні та ефективні сегменти.
Економія бюджету: Предиктивні сегменти особливо ефективні для дорогих каналів, наприклад SMS, де важливо оптимізувати витрати на повідомлення.
Нові сценарії автоматизації: Окрім підвищення конверсії, предиктивні сегменти допомагають виявляти інші важливі події, наприклад відтік клієнтів, що дає змогу будувати кампанії з утримання аудиторії.
Спрощене A/B тестування: Предиктивні сегменти забезпечують більш точні результати, що робить їх ідеальними для тестування різних креативів, пропозицій та змінних кампаній.

Реальні кейси застосування прогнозної сегментації

Кейс O.TAJE

Український бренд жіночого одягу O.TAJE значно покращив ефективність Viber-кампаній завдяки предиктивній сегментації в CDP eSputnik. У період з червня по серпень 2024 року команда протестувала предиктивні сегменти та порівняли їх з традиційною ручною сегментацією.

Одна з предиктивних кампаній показала наступні результати:

Відкриття повідомлень: 57.83% (проти 45.24% у ручній сегментації)
Конверсія: 5.73% (проти 5.14%)
ROMI: 1010.89% (проти 389.19%)

Загальні покращення метрик при використанні предиктивних сегментів:

26% вищий CTR
300% зростання конверсії
310% збільшення загального ROMI

З огляду на ці результати O.TAJE планує масштабувати предиктивну сегментацію і використовувати її в SMS-кампаніях.

Висновок

Тепер ви знаєте все необхідне для ефективного використання предиктивної сегментації:

Чим вона відрізняється від описової сегментації
Які дані використовуються
Як працюють моделі
Як оцінюється їх ефективність

Завдяки цим знанням ви можете оптимізувати свої маркетингові кампанії та збільшити їхню результативність за допомогою машинного навчання.

Якщо ви хочете дізнатися більше про те, як предиктивна сегментація може покращити ваш бізнес і як eSputnik може вам у цьому допомогти, заповніть форму нижче. Наші експерти зв’яжуться з вами найближчим часом.

Отримати персональну консультацію