Что такое Data Lineage
Отслеживание происхождения данных
Что такое Data Lineage
Data Lineage — отслеживание полного пути данных от источника до потребителя, включая все трансформации, агрегации и перемещения между системами.
Типы Lineage
| Тип | Описание | |-----|----------| | Technical Lineage | На уровне таблиц, колонок, SQL | | Business Lineage | Бизнес-термины и KPI | | Operational Lineage | Джобы, расписания, зависимости | | Column-level | Трансформации на уровне полей |
Зачем нужен Data Lineage
- Анализ влияния — что сломается при изменении
- Root cause analysis — откуда пришла ошибка
- Compliance — соответствие GDPR, SOX
- Документация — понимание данных
- Миграция — планирование переходов
Инструменты
| Инструмент | Особенности | |------------|-------------| | Apache Atlas | Open-source, Hadoop | | OpenLineage | Стандарт, интеграции | | DataHub | LinkedIn, graph-based | | Atlan | Modern data catalog | | Collibra | Enterprise |
Автоматический сбор Lineage
- SQL parsing — анализ запросов
- API integrations — из Airflow, dbt, Spark
- Log analysis — из систем обработки
- Metadata harvesting — из каталогов
Визуализация
- Графы зависимостей
- Upstream/downstream анализ
- Impact assessment
- Timeline трансформаций
Практическое применение
- Debugging data issues
- Compliance reporting
- Data migration planning
- Onboarding новых сотрудников
- Документация data assets