Качество данных

Автоматическая оценка качества клиентских данных: скоринг полноты профиля (0-100), обнаружение дубликатов, объединение контактов, suppression-списки и мониторинг источников данных.

Что вы получаете

Автоматический скоринг качества профиля (0-100 баллов)
Обнаружение дубликатов по email, phone и fuzzy-сопоставлению имён
Интеллектуальное объединение контактов с сохранением полных данных
Suppression-списки для исключения невалидных адресов
Мониторинг источников и полноты полей по всей базе

Проблема

Некачественные данные -- тихий убийца маркетинговых бюджетов. По исследованиям Gartner, средняя компания теряет $12.9 миллионов ежегодно из-за плохого качества данных. В маркетинге последствия ощутимы немедленно: письма на несуществующие адреса портят репутацию домена, дубликаты контактов приводят к множественным отправкам одному человеку, неполные профили делают персонализацию невозможной.

Проблема усугубляется с ростом базы. Каждый новый источник данных (импорт из CSV, регистрация на сайте, подписка через виджет, интеграция с CRM) вносит свой формат: телефоны с разными кодами стран, email в разных регистрах, имена с опечатками. Без системы контроля качества база деградирует со скоростью 25-30% в год: люди меняют адреса, увольняются, отписываются от мессенджеров.

Как работает Качество данных в Trigly

Trigly предоставляет комплексную систему управления качеством данных через четыре взаимосвязанных сервиса.

DataQualityService рассчитывает скоринг качества профиля от 0 до 100 баллов. Алгоритм анализирует полноту заполнения ключевых полей, назначая каждому полю вес. Контактные данные (email, phone) имеют наивысший вес, так как без них коммуникация невозможна. Демографические данные (имя, город, страна) имеют средний вес -- они нужны для персонализации. Поведенческие данные (last_activity_at, total_orders) отражают актуальность профиля. Канальные идентификаторы (telegram_chat_id, whatsapp_phone, push_subscription) показывают мультиканальный охват.

Итоговый data_quality_score сохраняется в профиле клиента и пересчитывается ночной Celery-задачей recalculate_rfm (вместе с RFM, lifecycle и computed fields). Эндпоинт GET /api/v1/cdp/analytics/data-quality возвращает агрегированную статистику по всей базе: средний score, распределение по диапазонам, наименее заполненные поля.

MergeService обнаруживает и объединяет дубликаты. Метод find_duplicates ищет потенциальные совпадения по трём критериям: точное совпадение email, точное совпадение phone, и нечёткое (fuzzy) сопоставление имён с учётом опечаток. Каждый дубликат получает confidence score -- вероятность того, что это действительно один и тот же человек.

Метод merge_contacts объединяет два профиля в один. Алгоритм выбирает наиболее полные данные из обоих профилей: если у первого есть email, а у второго -- телефон, в результате будут оба. Теги и custom_fields объединяются. Все события, сообщения и идентификаторы переносятся на основной профиль. Вторичный профиль удаляется. Операция логируется через AuditService для возможности отката.

SuppressionService управляет списками исключений. Модель SuppressionEntry хранит email-адреса и номера телефонов, которые должны быть исключены из всех рассылок. Записи создаются автоматически: при hard bounce (невалидный адрес), при жалобе на спам (через провайдерские вебхуки Unisender), при ручной отписке клиента.

Метод check проверяет, находится ли получатель в suppression-списке перед каждой отправкой. Эндпоинт POST /api/v1/cdp/suppression/bulk позволяет массово добавить адреса. Метод delete позволяет удалить адрес из списка, если проблема была решена (например, адрес снова валиден).

ImportService обеспечивает качество при импорте. При загрузке CSV-файла система выполняет дедупликацию: проверяет email и phone на уникальность внутри файла и против существующей базы. Preview-эндпоинт показывает маппинг полей и потенциальные конфликты до начала импорта. При обнаружении дубликатов маркетолог выбирает стратегию: пропустить, обновить существующий профиль, или создать новый.

SourceService анализирует источники данных: распределение клиентов по полям source, utm_source, utm_medium, utm_campaign. Это помогает выявить источники с наименьшим качеством данных и скорректировать формы сбора.

Преимущества

  1. Количественная оценка качества: score 0-100 превращает абстрактное "качество данных" в измеримую метрику. Маркетолог видит, что средний score базы -- 65, и ставит цель достичь 80. KPI для всей команды.

  2. Автоматическая дедупликация: MergeService находит дубли, которые человек не заметит -- разный регистр email, телефон с и без +7, транслитерация имени. Fuzzy-сопоставление находит "Александр Иванов" и "Alexandr Ivanov" как потенциальный дубликат.

  3. Защита репутации домена: SuppressionService автоматически исключает hard bounce и spam complaints из рассылок. Это предотвращает попадание домена в чёрные списки и поддерживает deliverability выше 95%.

  4. Прозрачность при импорте: preview-эндпоинт показывает все потенциальные проблемы до начала импорта. Маркетолог контролирует процесс и принимает осознанные решения о дубликатах.

  5. Непрерывный мониторинг: Celery-задача recalculate_rfm пересчитывает data_quality_score каждую ночь. Деградация качества базы видна на графике. Аналитика по источникам помогает устранить корневые причины.

Сравнение с конкурентами

Специализированные платформы очистки данных (Clearbit, ZoomInfo, DaData) решают одну задачу -- обогащение или валидацию. Trigly предоставляет комплексную систему: скоринг, дедупликация, объединение, suppression -- всё встроено в CDP без внешних интеграций.

В отличие от Mindbox, где дедупликация ограничена точным совпадением email, Trigly поддерживает fuzzy-сопоставление имён и множественные идентификаторы. В отличие от amoCRM, где дубликаты обнаруживаются только при создании, Trigly сканирует всю базу проактивно. SuppressionService с автоматическим добавлением hard bounce и spam complaints -- функция, которую большинство российских платформ требуют настраивать вручную.

Примеры по нишам

Ритейл с историей: Сеть магазинов с базой 500,000 контактов, собранных за 10 лет из анкет, сайта и мобильного приложения. DataQualityService показал средний score 42 балла. MergeService обнаружил 15% дубликатов (75,000 пар). После объединения и очистки база сократилась до 425,000 уникальных клиентов с средним score 61. Deliverability email-кампаний выросла с 87% до 96%.

Финтех со множеством источников: Платформа микрокредитования получает заявки из 12 источников: сайт, партнёры, агрегаторы, мобильное приложение. Каждый источник имеет свой формат данных. SourceService выявил, что 3 источника дают score ниже 30 (нет email, только телефон и имя). Улучшение форм сбора этих источников подняло средний score с 55 до 72. SuppressionService автоматически исключил 8,000 невалидных номеров телефонов.

Онлайн-образование с импортами: Школа регулярно импортирует списки из вебинаров (CSV от платформ типа GetCourse). ImportService обнаруживает 20-30% дубликатов при каждом импорте. Preview показывает конфликты до начала обработки. Стратегия "обновить существующий" обогащает профили новыми данными (город, интересы) без создания дублей.

Интеграции

DataQualityService интегрирован с Celery для ночного пересчёта score. MergeService использует IdentityService для разрешения идентичностей и AuditService для логирования изменений. SuppressionService связан с провайдерскими вебхуками (Unisender bounce, SMS status callbacks) для автоматического добавления невалидных адресов. ImportService обращается к базе CDP для дедупликации при загрузке CSV. SourceService работает с ClickHouse events для анализа UTM-меток. REST API предоставляет эндпоинты для всех операций с качеством данных.

Частые вопросы

Как повысить data quality score базы? Три ключевых шага: объедините дубликаты через MergeService, обогатите профили недостающими полями (запросите у клиентов или импортируйте из CRM), очистите базу от невалидных контактов через SuppressionService. Настройте формы сбора данных для обязательного заполнения ключевых полей.

Можно ли отменить объединение контактов? AuditService логирует каждую операцию объединения через ContactChange с полными данными до и после. Технически разъединение требует ручного вмешательства, поэтому рекомендуется внимательно проверять предложения MergeService перед подтверждением. Уровень confidence помогает оценить надёжность совпадения.

Как часто нужно проводить очистку базы? Рекомендуемая частота: проверка дубликатов -- ежемесячно, пересчёт data quality score -- ежедневно (Celery делает это автоматически), проверка suppression-списка -- при каждой отправке (автоматически). Полный аудит базы с анализом источников -- ежеквартально.

Лучшие практики

Установите KPI по data quality score. Определите целевой средний score базы (например, 75) и отслеживайте его еженедельно. DataQualityService пересчитывает score каждую ночь, поэтому данные всегда актуальны.

Обогащайте профили при каждом контакте. Добавляйте запрос недостающих данных в email-рассылки: «Укажите ваш город для персональных предложений». Используйте progressive profiling — запрашивайте 1-2 поля за раз, а не анкету из 10 пунктов.

Автоматизируйте очистку. Настройте регулярное сканирование MergeService и автоматическое добавление hard bounce в suppression через провайдерские вебхуки. Ручная очистка базы — неэффективна и нерегулярна.

Анализируйте источники данных. SourceService показывает, какие источники дают наименее полные профили. Улучшите формы сбора на проблемных источниках: добавьте обязательные поля, используйте автозаполнение.

Типичные ошибки

Откладывание очистки базы. Чем дольше база не чистится, тем больше невалидных адресов, дубликатов и устаревших данных. Качество деградирует на 25-30% в год. Начните очистку сразу после подключения к Trigly.

Объединение дубликатов без проверки. MergeService показывает confidence score для каждой пары. Дубликаты с низким confidence (ниже 60%) требуют ручной проверки — автоматическое объединение может соединить профили разных людей.

Игнорирование suppression-списка. Отправка на адреса из suppression-списка портит репутацию домена и может привести к блокировке. Trigly автоматически проверяет suppression перед каждой отправкой, но убедитесь, что вебхуки от провайдеров настроены корректно.

Связанные материалы

Другие возможности Trigly

Попробуйте Качество данных в Trigly

Бесплатная интеграция. Все функции доступны с первого дня. Гарантия окупаемости.

Записаться на аудит