Главное Свежее Вакансии   Проекты
58 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как найти и объединить дубли клиентов

В этой статье расскажем, откуда берутся дубли, чем они мешают бизнесу, и как избавиться от дубликатов, консолидировать клиентскую базу и держать ее под постоянным контролем.

Почему дубли вредят бизнесу


Пожалуй, все сталкивались с тем, что один и тот же клиент заведен в базах данных компании несколько раз. Причин этому множество, в том числе, любимый «человеческий фактор». Например, клиент авторизовался на сайте интернет-магазина, а потом позвонил в call-центр или обратился лично и менеджер повторно внес его данные.

Путаница в клиентской базе может обернуться большой проблемой для компании и вот почему:

  1. Ошибки в проведении маркетинговых кампаний, планировании продаж, закупок и т.д.
  2. Репутационные потери, возникающие, например, в следствие ошибочных рассылок и спама.
  3. Отток клиентов из-за того, что усилия на удержания не доходят до нужных адресатов.
  4. Лишние траты на коммуникации с клиентами.
  5. Отсутствие четкого представления о реальном объеме клиентской базы, т.к. зачастую дубли могут составлять десятки процентов от общего количества контрагентов.

Перечисленные последствия — малая часть проблем. Cо временем они усугубляются и разрастаются, как болезнь, становятся причиной все бОльших и бОльших убытков.

Что же такое дубли


В общем случае под дублями понимаются несколько записей в учетных системах, относящихся к одному клиенту. Типичный пример таких данных:


Карточки 1 и 4 являются полностью идентичными и относятся к одному клиенту, при этом карточка 3, вероятно, также относится к этому же клиенту, а различие обусловлено опечатками и пропусками при заполнении. А вот карточка 2 относится к совершенно другому клиенту и не является дублирующей. Таким образом, можно выделить полные и потенциальные дубли.

Основной задачей дедупликации является настройка таких алгоритмов поиска, которые с одной стороны, максимизируют количество записей, относящихся к одному клиенту, а с другой — минимизируют ложные срабатывания, т.е. попадания в группу дублей записей о другом клиенте.

Как с ними бороться


Большинство негативных последствий можно избежать, если «причесать» информацию, настроить и внедрить систему дедупликации данных.

Наиболее эффективный подход, используемый в решении Loginom Data Qualityдля устранения проблемы дублей, состоит из следующих шагов:

  1. Предварительная очистка и обогащение данных о клиентах.
  2. Подготовка стратегии поиска дублей — задание условий, при выполнении которых записи будут считаться совпадающими.
  3. Тестирование стратегии на реальных данных и ее корректировка при необходимости.
  4. Задание правил формирования «золотой» записи — записи о клиенте с максимально заполненными и актуальными атрибутами, такими как ФИО, телефоны, документы, дата рождения и т.д.

Расскажем подробнее о каждом шаге поиска дублированных записей.

Очистка клиентских данных


До начала дедупликации нужно оценить степень загрязненности карточек клиентов. Как правило, ситуация с качеством данных в CRM-системахсложная. Операторы вводят данные о контрагентах «как придется».

Одна из проблем — разные форматы атрибутов клиентов: ФИО, телефоны, e-mail, документы, адреса. Распространенная ситуация, когда ФИО записано в CRM-системах в разных последовательностях, например, Александров Иван Сергеевич и Иван Сергеевич Александров. Еще чаще не структурированы адресные данные, номера телефонов и документов.

Такие записи при автоматической проверке на полное совпадение будут определены как разные. В этих случаях для повышения эффективности поиска дублей все атрибуты приводятся к унифицированному стандарту, а адреса к формату ФИАС.

Другая проблема — опечатки:

— Ошибочный ввод символов, расположенных рядом на клавиатуре, например, вместо Федор пишут Ыедор или вместо 74 АА 397530 записано 74 АА 297530.

— Смешанные символы из разных алфавитов со схожим написанием, например, в написании номера водительского удостоверения 74 АА 397530 символ А может быть записан латиницей и такое написание не совпадет с написанием полностью на кириллице.

— Неверный язык при вводе букв, например, Иван будет записан как Bdfy.

Все эти типы ошибок учитываются в решении Loginom Data Quality для формирования «чистых» клиентских атрибутов, которые позже направляются на дедупликацию.

Методы и стратегии поиска дублей


В общем случае можно выделить два подхода для сравнения записей и поиска дублей — полное совпадение и нечеткое сравнение. Каждый из подходов имеет свои плюсы и минусы.

Проверка на полное совпадение является простой и быстрой, что особенно важно, когда клиентская база — десятки миллионов записей. Однако, для корректного решения задачи дедупликации недостаточно только точного совпадения клиентских атрибутов. Множество клиентских записей содержат опечатки и пропуски, поэтому точное сравнение не позволит найти все дубли, следовательно, их не получится очистить и стандартизировать.

Для улучшения качества дедупликации целесообразно применение нечеткого сравнения — сопоставления значений на основе метрик схожести, таких как расстояния Хемминга, Левенштейна, Дамерау-Левенштейна.

Такие методы позволяют найти кандидатов в дубли, которые невозможно обнаружить при помощи сравнения на полное совпадение, но расчет нечетких метрик схожести является ресурсоемким. Это приводит к снижению производительности на больших объемах данных, а также необходимости оптимизировать процедуру сравнения, что является нетривиальной задачей.

В решении Loginom Data Quality для поиска дублей используется комбинированный подход с использованием точного и нечеткого сравнения, который выражается в применений стратегий поиска — наборов условий сравнения различных клиентских атрибутов, при выполнении которых записи будут считаться дублями.

Рассмотрим примеры стратегий поиска дублей для сравнения следующих записей:


Видно, что в ФИО значения расходятся в один символ, поэтому использовать точное сравнение по данным атрибутам нельзя. В качестве метрики выберем расстояние редактирования. Если мы зададим его равным 1, то, казалось бы, найдем нужные дубли, но при этом записи 5 и 6 имеют разное имя и явно относятся к разным клиентам. Для этого нужно при сравнении записей учитывать длину строк.

Таким образом, получаем один из критериев сравнения — расстояние редактирования не более 1 и при этом, не более 25% от длины сравниваемых строк. Но и в этом случае могут возникнуть ошибки.

Так, в записи 2 может оказаться значение Трынов и строки 1 и 2 уже будут относятся к разными клиентам. Да и в целом, даже полное совпадение ФИО не дает основания считать записи дублями. Нужно вводить еще один критерий на точное совпадение, например, по дате рождения.


Здесь есть два варианта:

  1. Не обращать внимания на null и считать записи дублями. Подходит чаще при сравнении контактных данных: e-mail, номера телефонов.
  2. При наличии null в данных не считать записи дублями и отправлять на ручную проверку. Применимо к ключевым атрибутам — фамилия, имя, отчество и т.п. Например, в ситуации в таблице выше лучше использовать данный вариант.

Также, стоит обратить внимание на то, что некоторые дубли не всегда можно выявить автоматически. В этом случае используются более «мягкие» стратегии — наборы условий с менее жестким порогом совпадения. Результаты работы таких стратегий далее попадают на ручную обработку.

Подведем итоги


  1. Методы поиска дублей бывают точные и нечеткие.
  2. Для наиболее эффективного поиска дублей необходимо формировать стратегии, которые охватят все возможные варианты совпадений.
  3. Не все дубли можно выявить в автоматическом режиме, поэтому некоторые результаты поиска идут на ручную обработку.
  4. Для наибольшей эффективности поиска дублей, необходим индивидуальный подход к формированию стратегий.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Первые Новые Популярные
Комментариев еще не оставлено
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.