データ品質 とは
データの正確性と完全性の確保
データ品質とは
データ品質は、ビジネスプロセスと分析での使用適性を決定するデータ特性のセットです。
データ品質の次元
| 次元 | 説明 | |------|------| | 正確性 | 現実世界との対応 | | 完全性 | 入力の完全度 | | 一貫性 | システム間の整合性 | | 適時性 | 鮮度と即時性 | | 妥当性 | ビジネスルールへの準拠 | | 一意性 | 重複なし |
チェックの種類
- スキーマ検証 — 構造検証
- 範囲チェック — 許容範囲内の値
- パターンマッチング — フォーマット準拠
- 参照整合性 — 関係の整合性
- ビジネスルール — ビジネスロジック
ツール
| ツール | タイプ | |--------|--------| | Great Expectations | Pythonフレームワーク | | dbt tests | SQLベース | | Apache Griffin | オープンソース | | Talend DQ | エンタープライズ | | Soda Core | モダンDQ |
品質メトリクス
- データ品質スコア(DQS)
- フィールド別エラー率
- 完全性パーセンテージ
- 鮮度(最終更新からの時間)
実装プラクティス
- 取り込み時のデータプロファイリング
- パイプラインでの自動チェック
- 品質低下時のアラート
- データスチュワードシッププロセス
- データディクショナリドキュメント