Что такое DWH (КХД) и как работает корпоративное хранилище данных
Что такое DWH простыми словами
DWH (Data Warehouse, корпоративное хранилище данных, КХД) — система, которая собирает, структурирует и обрабатывает данные из разных источников, а также готовит их для бизнес-аналитики и отчетности.
В большинстве компаний ведется учет всех данных, необходимых для принятия решений, но они хранятся в разных системах. При необходимости аналитики или отчетности возникают сложности:
- Ручной сбор данных отнимает время и не исключает ошибок
- Не все данные подходят для аналитики — их надо актуализировать, очистить, обогатить
- Хранение исторических данных в операционных БД нецелесообразно, теряется часть важной информации
- Готовые отчеты нужно ждать, и бизнес не может принимать своевременные решения на их основе
DWH решает проблемы сбора, хранения и быстрой доставки в BI как текущих, так и архивных данных компании.
Как работает Data Warehouse
1. Источниками данных для хранилища могут выступать:
- CRM-системы
- ERP-системы
- Базы данных
- Excel-файлы
- Личные кабинеты маркетплейсов
- И другие системы

2. С помощью процессов ETL (Extract, Transform, Load) и ELT (Extract, Load, Transform) данные извлекаются из источников, очищаются, преобразуются и загружаются в DWH
3. В хранилище данные приводятся к единой структуре, связываются между собой и формируются в витрины данных (data marts) — срезы данных, ориентированные на конкретную задачу бизнеса
4. Подготовленные данные становятся доступными для BI-аналитики, отчетности, а также используются в ML, AI и других data-проектах Современная BI-аналитика в сочетании с единым корпоративным хранилищем данных открывает новые возможности для управления бизнесом. DWH объединяет данные из разных систем, очищает и приводит их к единой структуре для удобной и эффективной аналитики Если данные хранятся в сотнях тысяч строк, на выполнение стандартных запросов уходит много времени. DWH позволяет строить отчеты в BI значительно быстрее После внедрения DWH все пользователи работают с едиными согласованными данными, доступными в BI в виде готовых дашбордов DWH хранит как текущие, так и исторические данные, что позволяет анализировать динамику и строить прогнозы Подготовка данных к анализу в пространстве КХД помогает снизить нагрузку на операционные ИС и улучшить их производительность Хранилище позволяет настраивать доступ к данным и формировать отчеты с учетом ролей и задач пользователей DWH обеспечивает контроль доступа, шифрование и мониторинг данных для защиты конфиденциальной информации (соблюдение 52-ФЗ или GDPR) Корпоративные хранилища данных применяются в большинстве отраслей, где важно работать с большими объемами данных и строить аналитику по разным направлениям бизнеса Единая аналитическая система позволяет руководителям KASSIR.RU за несколько минут получать информацию о результатах продаж, оценивать динамику и прогнозировать спрос DWH позволило снизить нагрузку на операционные системы компании и повысить производительность аналитических запросов Дашборды помогают отслеживать показатели заказов, планировать отгрузки продукции на склады, проводить ABC-XYZ анализ товаров Архитектура DWH описывает, как устроено хранилище: какие уровни в нем есть, как данные движутся от источников к потребителям, и какие сервисы обеспечивают эти процессы. Концептуально DWH представляет собой трехуровневую структуру: Это базовая схема, которая показывает, как данные проходят путь от источников до бизнес-решений.Для практической реализации ее детализируют — чаще всего через слоеную архитектуру LSA. Многоуровневая (слоеная) архитектура LSA — Layered Scalable Architecture — это развитие классической трехуровневой модели до конкретных слоев данных.LSA содержит в себе: На стейджинге данные временно приземляются из источников «как есть», в Primary Data Layer сохраняются уже с историей изменений. Структура повторяет источник — без преобразований. Опциональный слой между источниками и ядром. Содержит очищенные и интегрированные оперативные данные. Используется, когда бизнесу нужна near-real-time отчетность по операционным процессам. Центральный слой DWH, в котором данные приводятся к единой системе ключей и атрибутов, обогащаются и сохраняются с историей. Здесь обеспечивается целостность, полнота и качество данных. Основной подслой — DDS (Detail Data Store) с максимально детализированными данными в единой модели. Витрины данных — структурированные наборы данных, собранные под конкретные задачи бизнеса и подразделения. Именно этот слой используется для аналитики в BI. Обеспечивает управление всеми уровнями хранилища. Включает оркестрацию, мониторинг, алертинг, логирование, сквозной аудит данных (data lineage) и каталог данных (data catalog). Главный принцип LSA: каждый слой получает данные только из соседнего нижнего и может быть полностью пересобран из него без обращения к источникам. Это дает хранилищу устойчивость к изменениям и возможность масштабирования. Архитектура DWH не существует в вакууме — хранилище встраивается в более широкую инфраструктуру работы с данными компании. Концепция Unified Data Infrastructure, предложенная фондом a16z, описывает эту инфраструктуру как единую платформу, в которой DWH играет роль слоя хранения (Storage) — единой версии правды для всех потребителей данных.Подход рассматривает данные как стратегический актив: они перестают быть побочным результатом операций и становятся основой для принятия решений. Конкретные технологии для каждого слоя инфраструктуры подбираются под задачи компании.Подробнее о подходе Unified Data Infrastructure → Подход к проектированию определяет, как именно смоделированы данные внутри хранилища. Выбор подхода к проектированию — это не только техническое, но бизнес-решение: от него зависят сроки реализации и стоимость дальнейшего развития DWH. DWH строится «снизу вверх»: сначала проектируются витрины данных под отдельные бизнес-направления (продажи, маркетинг, финансы), которые затем объединяются через общие измерения (conformed dimensions) в единое хранилище. В основе — денормализованные модели «Звезда» (star) и «Снежинка» (snowflake).Когда подходит: нужно быстро получить результат по конкретным направлениям аналитики, бизнес готов идти итеративно Подход «сверху вниз»: сначала создаётся централизованное нормализованное хранилище на уровне всего предприятия (Enterprise Data Warehouse, EDW) в третьей нормальной форме (3NF), а уже из него формируются витрины под задачи подразделений.Когда подходит: крупная компания с большим количеством доменов и высокими требованиями к согласованности данных, готовая инвестировать в долгий старт ради простой эволюции в будущем. Гибридный подход, сочетающий нормализацию по Инмону с гибкостью к изменениям источников. Современный стандарт — Data Vault 2.0 — это не только модель данных, но и методология (хеш-ключи, бизнес-правила, вынесенные на уровень витрин, и встроенная аудируемость).Модель строится вокруг трех сущностей: Когда подходит: Много источников, схемы которых регулярно меняются; высокие требования к историчности и аудируемости (банки, телеком, госсектор).Подробнее о проектировании DWH → DWH как централизованная система состоит из программных компонентов, каждый из которых отвечает за процессы обработки данных: загрузку из источников, трансформацию, хранение, подготовку к аналитике и т. д.Обычно DWH строится на open-source стеке, так как такие инструменты дают необходимую для сложной аналитической системы гибкость, масштабируемость и сокращение затрат. Данные не появляются в DWH сами по себе — за наполнение корпоративного хранилища отвечают ETL и ELT-процессы. Они позволяют автоматизировать поток данных и исключить их ручной сбор и обработку. При таком подходе данные сначала извлекаются, затем трансформируются и только после этого загружаются в хранилище. Подход характерен для классических DWH, где важно контролировать качество данных до загрузки. Данные сначала загружаются в хранилище, а затем обрабатываются внутри него. Подход используется в облачных платформах и хранилищах Data Lake, где есть мощные вычислительные ресурсы. Выбор подхода и инструментов ETL и ELT зависит от требований проекта, объема данных, сложности трансформаций и доступных ресурсов. Подробнее об ETL/ELT-процессах → От обычной базы данных корпоративное хранилище отличается следующими критериями: Обычные базы хранят данные строго для определенных подсистем, DWH — данные, преобразованные для разных задач бизнеса. Стандартная БД содержит ограниченный объем данных, необходимые в данный момент для функционирования системы. КХД сохраняет как текущие, так и исторические данные в агрегированном виде. Информация обычно сразу попадает в рабочие базы данных, а уже оттуда выборочно в DWH. DWH отражает состояние других баз данных и процессов в компании уже после того, как вносятся изменения в рабочих базах. Data Lake (озеро данных) — это хранилище, куда в исходном виде поступают разные типы данных: структурированные, полуструктурированные и неструктурированные (например, тексты, изображения, логи, данные датчиков). В отличие от DWH, данные в Data Lake не приводятся к единой структуре сразу, а сохраняются «как есть», что позволяет использовать их не только для BI-аналитики, но и для задач машинного обучения, AI и работы с Big Data. Эволюция архитектуры данных. Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh — что это такое, и в чем разница между концепциями → Типовой проект внедрения DWH проходит следующие этапы: Внедрение хранилища данных — сложный проект, и ошибки на старте могут привести к значительным затратам на следующих этапах проекта. На практике чаще всего встречаются следующие проблемы:
Какие задачи решает корпоративное хранилище данных
Преимущества DWH для бизнеса

Примеры применения DWH в бизнесе
Автоматизация аналитики продаж KASSIR.RU с помощью DWH и BI от Qlever Solutions
Автоматизация операционной отчетности и DWH, которое помогает объединить 15 ТБ данных из ERP и кассовых систем для 400 магазинов
Как Qlever Solutions с помощью DWH и BI-аналитики помогли бренду Orby на 80% снизить количество ошибок при планировании отгрузок на маркетплейсы
Архитектура DWH
Трехуровневая модель DWH

Layered Scalable Architecture (LSA) — принцип слоеного пирога

DWH в общей инфраструктуре данных — подход a16z

Подходы к проектированию DWH
Хранилище по Кимбаллу — витрины под задачи бизнеса

Централизованное хранилище по Инмону

Data Vault

Сравнение подходов

Основные компоненты стека DWH

ETL и ELT: как данные попадают в хранилище
ETL (Extract → Transform → Load)

ELT (Extract → Load → Transform)

Чем DWH отличается от базы данных
Чем DWH отличается от Data Lake

Как внедряется корпоративное хранилище данных
Предпроектное обследование
Развертывание и подготовка инфраструктуры
Проектирование архитектуры
Построение DWH и разработка витрин данных для BI
Подключение BI-инструментов и отчетности
Тестирование и запуск в промышленную эксплуатацию
Документация и обучение пользователей
Частые ошибки внедрения DWH

Заложите правильную основу для DWH-проекта