データリネージ とは
データの起源追跡
データリネージとは
データリネージは、すべての変換、集約、システム間の移動を含む、ソースからコンシューマーまでのデータの完全なパスを追跡することです。
リネージの種類
| 種類 | 説明 | |------|------| | 技術リネージ | テーブル、カラム、SQLレベル | | ビジネスリネージ | ビジネス用語とKPI | | 運用リネージ | ジョブ、スケジュール、依存関係 | | カラムレベル | フィールドレベルの変換 |
リネージが重要な理由
- 影響分析 — 変更時に何が壊れるか
- 根本原因分析 — エラーの発生源
- コンプライアンス — GDPR、SOX準拠
- ドキュメント — データの理解
- 移行 — 移行計画
ツール
| ツール | 機能 | |--------|------| | Apache Atlas | オープンソース、Hadoop | | OpenLineage | 標準、統合 | | DataHub | LinkedIn、グラフベース | | Atlan | モダンデータカタログ | | Collibra | エンタープライズ |
自動リネージ収集
- SQL解析 — クエリ分析
- API統合 — Airflow、dbt、Sparkから
- ログ分析 — 処理システムから
- メタデータハーベスティング — カタログから
可視化
- 依存関係グラフ
- アップストリーム/ダウンストリーム分析
- 影響評価
- 変換タイムライン
実践的な応用
- データ問題のデバッグ
- コンプライアンスレポート
- データ移行計画
- 新入社員オンボーディング
- データ資産ドキュメント