Клиенты – это основа успеха любого бизнеса, поэтому компании заинтересованы в создании систем для более гибкой работы с ними. С проблемой оттока клиентов сталкиваются абсолютно все компании, предоставляющие товары или услуги. В связи с высокой стоимостью привлечения новых пользователей и ростом конкурентоспособности рынка увеличивается значимость удержания клиентов. Машинное обучение нашло применение во многих задачах прогнозирования и классификации и способно преждевременно выявить клиентов, склонных перейти к одному из конкурентов.
Удержание клиентов – одна из ключевых задач бизнеса. Ежедневно рынок пополняется все новыми конкурентами, которые готовы предпринять любые усилия, чтобы отвоевать часть клиентуры у других. Потребителю такое положение только на руку: он может выбирать самые выгодные условия покупки, требовать скидок и дополнительных опций. Поэтому, если ваше направление бизнеса предполагает не разовые сделки, а длительные отношения с потребителями, а их потеря весьма критична, то хорошо бы заранее озаботиться удержанием существующих клиентов.
В большинстве компаний, где собирается большое количество данных, пригодных для анализа, применяются техники машинного обучения и интеллектуального анализа данных. Одним из популярных примеров использования машинного обучения в реальной жизни – это прогнозирование оттока клиентов. Прогнозированием и управлением оттоком клиентов занимаются телекоммуникационные компании, банки, страховые компании и другие.
Современные системы на основе искусственного интеллекта (ИИ) выводят эту задачу на качественно новый уровень. В отличие от традиционных статистических методов, ИИ-модели способны автоматически выявлять сложные, нелинейные зависимости в исторических данных, обучаясь на примерах поведения тысяч клиентов. Эти системы постоянно совершенствуют их по мере поступления новых данных, адаптируясь к изменяющимся рыночным условиям и поведенческим паттернам. Для этого применяется спектр алгоритмов машинного обучения, каждый из которых имеет свои сильные и слабые стороны, что наглядно демонстрирует сравнительная таблица 1.
Таблица 1.
Сравнительная таблица моделей машинного обучения для анализа оттока клиентов.
|
Модель машинного обучения |
Принцип работы |
Преимущества для анализа оттока клиентов |
Недостатки |
|
Логистическая регрессия |
Простой линейный алгоритм, оценивающий вероятность оттока. |
Высокая интерпретируемость, быстрая работа, хорошая база для сравнения. |
Низкая точность при сложных, нелинейных зависимостях в данных. |
|
Градиентный бустинг (XGBoost) |
Мощный ансамбль, где каждое новое дерево исправляет ошибки предыдущих. |
Одна из самых высоких точностей, эффективен с различными типами признаков. |
Склонен к переобучению при неправильной настройке, сложнее в интерпретации. |
|
Метод опорных векторов (SVM) |
Ищет оптимальную границу (гиперплоскость) для разделения классов. |
Эффективен в высокоразмерных пространствах, хорошо работает на чистых данных. |
Медленная работа на больших датасетах, низкая производительность при дисбалансе классов. |
Выбор конкретно й модели зависит от бизнес-задачи, требуемой точности и интерпретируемости.
Актуальность темы прогнозирования оттока клиентов в телекоммуникационной отрасли обусловлена комплексом критических вызовов, с которыми сталкиваются современные операторы связи. В условиях предельной насыщенности рынка, когда уровень проникновения услуг мобильной связи и широкополосного доступа в интернет приближается к абсолютным значениям, естественный прирост абонентской базы практически исчерпан. Это трансформирует конкурентную среду в «борьбу за чужих клиентов», где каждый ушедший абонент наносит прямой удар по экономике компании. Финансовая составляющая проблемы усугубляется значительным дисбалансом между стоимостью привлечения нового клиента и удержания существующего, где последнее в разы эффективнее.
Более того, клиентский отток является индикатором системных проблем, таких как неудовлетворенность качеством обслуживания, появление более привлекательных тарифных предложений у конкурентов или негибкость клиентской политики. В эпоху цифровизации и повсеместного распространения моделей с подпиской, удержание лояльной клиентской базы становится ключевым источником стабильных повторяющихся доходов. В этом контексте методы прогнозной аналитики и машинного обучения переходят из разряда опциональных инструментов в категорию стратегически необходимых.
Для любого предприятия, предоставляющего товары или услуги, важным аспектом является клиентская база. В нее поступают новые клиенты, какое-то время активно пользуются услугами и через некоторый промежуток времени перестают. Весь это промежуток называется «Жизненный цикл клиента» (англ. Customer Lifecycle) – это термин, описывающий этапы, которые проходит клиент, когда узнает о продукте, принимает решение о покупке, платит, использует и становится лояльным потребителем, и в конечном счете перестает пользоваться продуктами по тем или иным причинам. Соответственно понятие “отток” описывает завершающую стадию жизненного цикла клиента, а для бизнеса это означает, что клиент перестал приносить прибыль и вообще какую-либо пользу.
Отток клиентов выражается в сокращении клиентской базы и снижении показателей выручки [3]. По информации Harvard Business Review, если повысить коэффициент удержания клиентов на 5 %, то прибыль бизнеса увеличится на 25–95 %. Ранее проблема оттока клиентов компенсировалась за счет привлечения новых клиентов, но в современном мире темпы роста постоянно ускоряются, рынок заполнен огромным количеством конкурентов, что приводит к постоянному повышению требований клиентов к продукции и оказываемым услугам. В связи с этим становится более затратным и трудоемким процесс привлечения новых клиентов, что в свою очередь усиливает значимость в удержании уже существующей клиентской базы.
Понятие отток клиентов является не строгим понятием и не описывает этап расторжения. Существует три основных подхода к определению оттока клиентов:
1. Оттоком является отказ клиентов приобретать продукцию и услуги компании, расторжение клиентами договоров на обслуживание и т.д.
2. Оттоком признается прекращение использования клиентом продукции компании или какой-либо из оказываемых услуг.
3. Оттоком является ситуация, в которой клиент вначале активно пользуется продукцией компании или услугой, а затем сводит пользование до минимума.
В основе исследования лежал публичный датасет «Telco Customer Churn», содержащий информацию о 7043 клиентах, описываемую 21 признаком. Эти признаки охватывали демографические аспекты, детализацию подключаемых услуг, финансовые условия и параметры контракта. Исходные данные требовали тщательной предобработки, которая включала обработку пропущенных значений в поле «TotalCharges», где для клиентов с нулевой продолжительностью обслуживания пропуски были заполнены нулевыми значениями. Категориальные переменные, такие как «Тип контракта», «Метод оплаты» и «Тип интернет-услуги», были преобразованы с помощью техники One-Hot Encoding для их приведения к числовому виду, пригодному для работы алгоритмов. Числовые признаки, включая «продолжительностьобсуживания» и «ежемесячные платежи», были стандартизированы. Особое внимание было уделено проблеме дисбаланса классов, поскольку только около 26.5% клиентов в выборке относились к целевому классу «ушедшие». Для решения этой проблемы и предотвращения смещения модели в сторону мажоритарного класса была успешно применена техника SMOTE, которая синтетически генерирует примеры миноритарного класса, балансируя распределение.
Задача была формализована как задача бинарной классификации. Для ее решения были исследованы три классических алгоритма: логистическая регрессия, выбранная в качестве простой и интерпретируемой базовой модели; градиентный бустинг, в частности его эффективная реализация XGBoost, часто показывающая высочайшее качество на табличных данных; и метод опорных векторов. Для объективной оценки модели были сформированы обучающая и тестовая выборки в соотношении 70/30 с сохранением стратификации по целевому признаку. Для подбора гиперпараметров использовалась 5-кратная кросс-валидация на обучающем множестве. Учитывая бизнес-контекст, где пропуск уходящего клиента обходится дороже, чем ложное срабатывание, ключевыми метриками для выбора модели были выбраны полнота (Recall), показывающая, какую долю ушедших клиентов мы смогли обнаружить, и F1-мера, как сбалансированный показатель между полнотой и точностью. Также отслеживались общая точность (Accuracy) и площадь под ROC-кривой (AUC-ROC).
После проведения процедуры обучения и тонкой настройки гиперпараметров каждая из моделей была протестирована на отложенной тестовой выборке. Сравнительный анализ продемонстрировал четкое преимущество ансамблевых методов, в частности, градиентного бустинга, что представлено в таблице 2.
Таблица 2.
Сравнительная таблица эффективности моделей машинного обучения для оттока клиентов.
|
Характеристика |
Логическая регрессия |
Градиентный бустинг (XGBoost) |
Метод опорных векторов (SVM) |
|
Ключевые метрики (качественная оценка) |
Recall = 0,788; F1 = 0,456; AUC-ROC = 0,812. |
Recall = 0,79; F1 = 0,75; AUC-ROC = 0,89. |
Recall = 0,788; F1 = 0,67; AUC-ROC = 0,96. |
|
Интерпретация для бизнеса |
Находит ушедших клиентов, но дает катастрофически много ложных тревог (Precision = 0,321), ненадежен. |
Сбалансированный лидер. Отлично находит ушедших и минимизирует ложные срабатывания. |
Хорошая общая точность и лучшая способность разделять классы, но проигрывает XGBoost по сбалансированности метрик. |
|
Эффективность против дисбаланса классов |
Низкая. |
Очень высокая. |
Высокая. |
Модель XGBoost достигла наивысших значений по ключевым метрикам: полнота составила 0.79, а F1-мера – 0.75. Это означает, что модель корректно идентифицирует 79% всех реально ушедших клиентов, сохраняя при этом приемлемый уровень точности предсказаний, что минимизирует количество ложных тревог и необоснованных затрат на удержание лояльных клиентов. Случайный лес показал близкие, но несколько худшие результаты, в то время как логистическая регрессия и метод опорных векторов уступили по всем основным показателям. Высокое значение AUC-ROC, равное 0.89 для модели XGBoost, подтвердило ее великолепную способность к разделению классов. Для интерпретации результатов и извлечения бизнес-инсайтов был проведен анализ важности признаков финальной модели. Наибольший вклад в прогноз вносила продолжительность обслуживания клиента, что вполне логично: новички более склонны к смене оператора, в то время как клиенты с долгой историей сотрудничества демонстрируют высокую лояльность. Вторым по значимости фактором оказался тип контракта: клиенты с помесячным контрактом имеют значительно более высокий риск оттока по сравнению с теми, кто заключил долгосрочные договоры на год или два. Размер ежемесячных платежей также вошел в тройку наиболее влиятельных признаков, указывая на то, что высокая стоимость услуги может быть фактором недовольства. Среди сервисных характеристик наибольший риск ассоциировался с подключением оптоволоконного интернета, что может объясняться более высокими ожиданиями клиентов от качества этого сервиса. Интересным наблюдением стала высокая значимость способа оплаты через электронный чек, что, вероятно, является маркером определенной поведенческой модели, ассоциированной с меньшей лояльностью. Этот анализ не только подтверждает общеизвестные бизнес-интуиции, но и выявляет нетривиальные зависимости, позволяя компании воздействовать на ключевые драйверы оттока.
Разработанная модель XGBoost была интегрирована в демонстрационный пайплайн, имитирующий процесс работы в реальной CRM-системе телекоммуникационного оператора. Процесс внедрения предполагает организацию регулярного пайплайна обработки данных. На первом этапе происходит еженедельное или ежемесячное обновление актуальных данных по клиентской базе. Далее эти данные проходят через тот же конвейер предобработки, что и при обучении модели, после чего обученная модель вычисляет для каждого клиента вероятность оттока – скоринг от 0 до 1. На основе этого скоринга производится сегментация клиентов. Например, выделяется группа критического риска с вероятностью оттока выше 80%, группа высокого риска и так далее. Для клиентов из группы высокого риска запускаются целевые удерживающие кампании. Это могут быть персонализированные предложения, такие как специальные скидки, бесплатные улучшения тарифного плана, персональные звонки от менеджеров по удержанию с целью выяснения и устранения причин недовольства. Экономическая эффективность такой системы рассчитывается на основе сравнения стоимости применяемых мер удержания с потенциальной потерей дохода от ушедшего клиента, то есть с его пожизненной ценностью. Важно подчеркнуть, что модель не принимает решений сама, а служит мощным инструментом поддержки принятия решений, позволяя службам удержания фокусировать свои ограниченные ресурсы на наиболее вероятных кандидатах на уход, тем самым значительно повышая ROI от маркетинговых активностей.
Таким образом в данной статье было описано понятие оттока клиентов и показана важность преждевременного выявления критичных клиентов. Была успешно разработана модель машинного обучения для прогнозирования оттока клиентов в телекоммуникационной отрасли. На основе сравнительного анализа было установлено, что модель градиентного бустинга XGBoost превосходит по своим прогностическим способностям такие алгоритмы, как логистическая регрессия [2], случайный лес [1] и метод опорных векторов, демонстрируя высокую полноту и сбалансированную F1-меру. Анализ важности признаков позволил не только создать точный прогностический инструмент, но и выявить ключевые факторы, влияющие на лояльность клиентов, что имеет самостоятельную ценность для бизнеса. К числу таких факторов относятся краткосрочный тип контракта, малая продолжительность сотрудничества и высокая стоимость услуг. Практическая значимость работы подтверждается разработанным прототипом системы, готовой к интеграции в бизнес-процессы компании. Внедрение подобной системы позволяет перейти от реактивной к проактивной парадигме управления клиентской базой, целенаправленно и эффективно расходуя ресурсы на удержание наиболее уязвимых клиентов, что в конечном итоге ведет к снижению общего уровня оттока и повышению финансовой устойчивости компании. Дальнейшие исследования в этой области могут быть направлены на использование более сложных данных, включая временные ряды взаимодействий клиентов и данные текстовой аналитики обращений в поддержку, а также на разработку систем рекомендации персонализированных удерживающих предложений.
Список литературы
Обзор самых популярных алгоритмов машинного обучения. [Электронный ресурс]. – Режим доступа: https://tproger.ru/translations/topmachine-learning-algorithms (Дата обращения: 28.03.2021)
Толстихин И. О. // Применение логических алгоритмов классификации в задаче прогнозирования оттока клиентов – 2008 (Дата обращения: 10.04.2021)
Нестеров А.К. Отток клиентов // Энциклопедия Нестеровых [Электронный ресурс]. – Режим доступа: http://odiplom.ru/lab/ottokklientov.html (Дата обращения: 08.04.2021)