데이터 계보 이란
데이터 출처 추적
데이터 계보란
데이터 계보는 모든 변환, 집계 및 시스템 간 이동을 포함하여 소스에서 소비자까지 데이터의 전체 경로를 추적하는 것입니다.
계보 유형
| 유형 | 설명 | |------|------| | 기술 계보 | 테이블, 컬럼, SQL 수준 | | 비즈니스 계보 | 비즈니스 용어 및 KPI | | 운영 계보 | 작업, 일정, 종속성 | | 컬럼 수준 | 필드 수준 변환 |
데이터 계보가 중요한 이유
- 영향 분석 — 변경 시 무엇이 깨지는지
- 근본 원인 분석 — 오류 발생 위치
- 컴플라이언스 — GDPR, SOX 준수
- 문서화 — 데이터 이해
- 마이그레이션 — 전환 계획
도구
| 도구 | 기능 | |------|------| | Apache Atlas | 오픈소스, Hadoop | | OpenLineage | 표준, 통합 | | DataHub | LinkedIn, 그래프 기반 | | Atlan | 모던 데이터 카탈로그 | | Collibra | 엔터프라이즈 |
자동 계보 수집
- SQL 파싱 — 쿼리 분석
- API 통합 — Airflow, dbt, Spark에서
- 로그 분석 — 처리 시스템에서
- 메타데이터 수확 — 카탈로그에서
시각화
- 종속성 그래프
- 업스트림/다운스트림 분석
- 영향 평가
- 변환 타임라인
실제 응용
- 데이터 문제 디버깅
- 컴플라이언스 보고
- 데이터 마이그레이션 계획
- 신규 직원 온보딩
- 데이터 자산 문서화