Что такое Data Warehouse
Структурированное хранилище для аналитики
Что такое Data Warehouse
Data Warehouse (хранилище данных) — централизованное структурированное хранилище для бизнес-аналитики, объединяющее данные из разных источников в единую модель.
Архитектура Data Warehouse
| Уровень | Описание | |---------|----------| | Staging Area | Промежуточная зона загрузки данных | | ODS | Оперативное хранилище данных | | Data Warehouse | Основное хранилище (факты + измерения) | | Data Marts | Витрины для отделов (продажи, маркетинг) |
Схемы моделирования
- Star Schema — центральная таблица фактов + измерения
- Snowflake Schema — нормализованные измерения
- Galaxy Schema — несколько таблиц фактов
ETL процесс
| Этап | Описание | |------|----------| | Extract | Извлечение из источников | | Transform | Очистка, преобразование, агрегация | | Load | Загрузка в хранилище |
Популярные решения
| Решение | Тип | |---------|-----| | Snowflake | Cloud-native | | Amazon Redshift | AWS | | Google BigQuery | GCP | | Azure Synapse | Microsoft | | Teradata | Enterprise on-premise | | Vertica | Columnar analytics |
Преимущества
- Единый источник истины
- Историчность данных (SCD)
- Оптимизация для аналитики
- Консистентность отчётности
- Разграничение нагрузки OLTP/OLAP