Data science на службе у email-маркетолога

Сергей Коваленко

Содержание

В 2012 году Harvard Business Review назвал профессию специалиста по науке о данных (data scientist) одной из наиболее привлекательных в 21 веке ("The sexiest job of the 21-st century" в оригинале). С тех пор рейтинги профессии "data scientist" продолжают расти, а спрос намного превышает количество специалистов. Эта тенденция не обошла стороной и сферу email-маркетинга.

В этой статье на конкретном примере мы покажем, как data science приходит на помощь email-маркетологу: даёт возможность лучше понять общую модель поведения клиентов и разработать принципиально новые схемы email-рассылок.

Проводим анализ активности пользователей по открытиям, времени с последнего открытия и количеству полученных писем

Часто для анализа и сегментации клиентской базы применяется RFM-анализ. В его основе лежит предположение о том, что клиент, проявивший себя недавно (recency), показывающий повышенную активность с момента регистрации (frequency) или тратящий на ваши товары больше денег (monetary), будет более заинтересован вашей рекламной кампанией. Обычно клиентская база разбивается на части по этим трем показателям, и анализируются модели поведения клиентов в интересующих вас сегментах.

Несмотря на то, что методика RFM — это полезный инструмент анализа адресного списка, можно использовать и другие подходы, которые позволяют глубже понять своих клиентов и открыть новые — порой неожиданные — стороны их поведения.

Недавно для одного из наших клиентов мы в рамках конкретной email-кампании провели объединенный анализ активности клиентской базы по открытиям email-писем, времени с последнего открытия и общему количеству полученных писем. В результате получился такой график.

График активности клиентской базы

Здесь по оси абсцисс отложено время с последнего открытия, деленное на все время жизни пользователя в рамках данной рассылки (relative recency). Если пользователь не открыл ни одного письма — соответствующее значение этой метрики мы определяем равным 1. По оси ординат отложена частота открытия писем в рамках данной рассылки (open rate). Все пользователи были разбиты на 4 категории по количеству полученных писем.

Из построенного графика видно, что основная часть пользователей сосредоточена в районе начала координат, а также вдоль осей:

группа пользователей вблизи начала координат — это те, кто мало читает, но последнее прочтение было сравнительно недавно (относительно времени жизни пользователя в рамках данной рассылки);
в верхнем левом углу — те, кто читают почти всё и открывали письмо недавно;
в нижнем правом углу — те, кто читают мало и последнее прочтение было давно (опять же — в относительных величинах);
остальные точки соответствуют пользователям с промежуточными паттернами поведения.

В классическом email-маркетинге считается, что наиболее влиятельным фактором, определяющим активность клиентов по прочтениям и переходам, является время с последнего активного действия (recency). Для проверки этого утверждения мы построили аналогичный график активностей для тех, кто открыл письмо из анализируемой рассылки.

График активности открывших письмо

Из этого графика мы четко видим, что основная масса точек сосредоточена в его левой половине, с преобладанием в районе оси ординат. Для этой группы пользователей также четко прослеживается линейчастый характер распределения по цветам: фиолетовые точки наиболее прижаты к оси, синие — меньше, и т. д. При этом общая частота открытий оказывает не такое сильное влияние на прочтение письма по рассылке. Это обусловлено двумя причинами:

действительно, фактор recency для этой (достаточно большой) группы пользователей имеет превалирующее значение над frequency;
среди всех категорий пользователей по давности вовлечения в email-рассылку есть те, кто прочитал письмо.

Но на графике также есть точки всех цветов, сосредоточенные вдоль оси обсцисс, особенно интересна группа точек в правом нижнем углу. Напомним, что эта область графика соответствует малоактивным пользователям, которые открывали редко и давно. Но, как мы видим из построенного графика, последнее письмо они прочли.

Попробуем теперь определиться с системой правил: каким пользователям стоит отсылать письма по данной рассылке, а каким — нет, чтобы минимизировать потенциальные потери по открытиям и кликам.

Эффективный email-маркетинг с eSputnik

Запускаем искусственный интеллект

В ряде наших предыдущих публикаций мы уже описывали разработанные нами системы фильтрации пользователей, основанные на искусственном интеллекте (ИИ). Попробуем применить ИИ для решения поставленной задачи. Напомним, что мы проводили весь предыдущий анализ в рамках 3-х показателей:

relative recency;
open rate;
общее количество полученных писем в email-кампании.

Базируясь на предыдущей истории активностей пользователей, мы разработали алгоритм ИИ, основанный только на этих 3-х метриках. В результате применения такого алгоритма к группе пользователей каждому пользователю будет проставлено некоторое число от 0 до 1 (или от 0% до 100%) — вероятность того, что данный пользователь не прочтет следующее письмо в рамках данной email-рассылки. Выбирая некоторое определенное значение в качестве барьера отсечения (threshold), мы будем классифицировать пользователей на тех, кому следует отсылать следующее письмо, и кому — нет (о выборе параметра "threshold" более детально вы можете прочитать здесь). Выберем в качестве барьера отсечения значение 0,99 и применим наш алгоритм к анализируемой рассылке. Результаты представлены на следующих двух графиках.

Первый график дает группу пользователей, которым наш алгоритм не рекомендовал отсылать письмо по рассылке (для каждого из этих пользователей было получено значение вероятности не ниже 0,99).

Первый график

Второй график показывает пользователей, которые открыли письмо, хотя алгоритм рекомендовал не отсылать его им.

Второй график

Из построенных графиков делаем такие выводы:

На первом графике основная масса точек сосредоточена вдоль оси абсцисс, при этом значения величины "relative recency" стартуют с 0,55, "open rate" для большинства точек не превышает 0,1. Сосредоточенность точек около оси абсцисс говорит о том, что алгоритм отбирает пользователей с низкими значениями частот прочтения писем. С другой стороны, диапазон "relative recency" (0,55; 1) означает, что отбираются пользователи с относительно давним последним прочтением.
На втором графике точки сосредоточены в полосе (0,6; 1) по оси абсцисс и (0; 0,1) по оси ординат. Распределение по цветам примерно одинаковое.

В целом, разработанный нами алгоритм ИИ рекомендует исключать пользователей с низкими значениями частот прочтения писем и высокой давностью по последнему прочтению. Предельные значения соответствующих метрик регулируются выбором параметра "threshold". В результате мы можем контролировать как количество пользователей, рекомендуемых к исключению из рассылки, так и потенциальные потери по открытиям (переходам). Но из последнего графика мы видим, что даже при относительно высоком барьере отсечения (в нашем случае — 0,99), потенциальные потери по открытиям будут достаточно существенными (количество точек на графике не так уж и мало).

Last post

Делаем выводы

Один из ключевых выводов, которые можно сделать из проведенного анализа: рассмотренных показателей слишком мало для разработки высокоэффективных алгоритмов фильтрации пользователей. Тем более недостаточно использовать только фактор "recency" в качестве параметра фильтрации. Выбор низкого значения этого параметра может привести к существенным потенциальным потерям в открытиях и переходах, тогда как высокое значение "recency" будет приводить к психологической усталости большой доли подписчиков и выгоранию контактной базы.

Для увеличения точности классификации необходимо ввести в алгоритм новые метрики (клики, каналы, пол, возраст и т. п.), которые будут дополнительно разделять пользователей с низкими значениями частот прочтения и высокими значениями "relative recency" по вероятностям прочтения писем. Именно поэтому в разработанных нами алгоритмах, которые лежат в основе системы ранжирования пользователей по прогнозируемой активности в прочтениях email-писем (Frequency Recommendation Engine), мы используем несколько десятков различных показателей (в некоторых случаях — до 50-60 показателей).

Следующий важный вывод: тогда как традиционные методы анализа активности пользователей (например, RFM-анализ) требуют статического разбиения клиентской базы на сегменты вручную ("малоактивные", "VIP" и т. д.), системы ИИ позволяют проводить такую сегментацию гибко, динамически регулируя только один параметр — расчетную вероятность прочтения (непрочтения) письма.

В нашем примере, выбрав барьерное значение вероятности равным 0,99, мы определили группу малоактивных клиентов, при этом выбор предельных значений по таким параметрам как "open rate" и "relative recency" был проведен автоматически. По другой рассылке с тем же значением 0,99 в качестве барьера рамки сегмента малоактивных клиентов могут быть иными. Аналогично можно выделить группу VIP-клиентов и т. п. Изменяя значение барьера отсечения, можно дополнительно регулировать параметры изучаемых сегментов.

3.1 из 5 на основе 58 оценок